DeepSeek-R1 的强化学习推理能力 2025-9-19 17:38 | 146 | 0 | AI,机器学习,算法 5755 字 | 31 分钟 2025年9月17日,由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文,登上了国际权威期刊《自然(Nature)》第 Volume 645 Issue 8081 期的封面。Nature 封面标题是《Self-help:强化学习教会 AI 模型自我改进(Self-help: Reinforcement learning teaches AI model to improve itself)…