2025年9月17日,由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文,登上了国际权威期刊《自然(Nature)》第 Volume 645 Issue 8081 期的封面。Nature 封面标题是《Self-help:强化学习教会 AI 模型自我改进(Self-help: Reinforcement learning teaches AI model to improve itself)》。
Self-help: Reinforcement learning teaches AI model to improve itself
Large language models (LLMs) tend to be better at solving problems if they can be trained to set out the steps they take as they try to reach the solution. This kind of ‘reasoning’ is similar to how humans approach more complex problems, but it presents significant challenges for artificial intelligence, requiring human intervention to add labels and annotations. In this week’s issue, researchers at DeepSeek reveal how they trained a model not only to reason in this way but also to do so with minimal human input. The model DeepSeek-R1 was trained using reinforcement learning in which the model was rewarded with a high score when it solved mathematical problems correctly and penalized when it got the answer wrong. As a result, it learnt that reasoning — tackling the problem in a stepwise manner and revealing those steps — was more likely to lead to the correct answer. This led DeepSeek-R1 to self-verify and self-reflect, checking its performance before giving answers to new questions and thereby improving its performance in coding and graduate-level science problems.
在 Nature 的社论中,这样评价道:
None of the most widely used large language models (LLMs) that are rapidly upending how humanity is acquiring knowledge has faced independent peer review in a research journal. It’s a notable absence. Peer-reviewed publication aids clarity about how LLMs work, and helps to assess whether they do what they purport to do.(目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被 DeepSeek 打破)
—— Bring us your LLMs: why peer review is good for AI models
众所周知,早在今年的1月20日,DeepSeek R1 就在 Github 和 Hugging Face 等平台进行了开源,同时也在 arXiv 上发行了网络预印版《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》(https://arxiv.org/abs/2501.12948)。查看 DeepSeek R1 的审稿意见文件,DeepSeek R1 在2月14日(情人节)向 Nature 投稿,历经了3轮审稿,8个审稿人,经历了5个月和长达64页A4纸的审稿意见及回复,以及修改之后,文章于7月17日接收,并登上9月18日的 Nature 封面。
文章正式发布的文章名为 《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》(https://www.nature.com/articles/s41586-025-09422-z),与今年1月发布的 DeepSeek-R1 的初版论文相比,本次论文披露了更多模型训练的细节。DeepSeek-R1 也是全球首个经过同行评审的主流大语言模型。
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
1. Abstract
「一般推理」一直是人工智能领域长期且艰巨的挑战。最近的突破,如大语言模型(LLMs)和思维链(Chain of Thought, CoT)提示,在基础推理任务上取得了显著成功。然而,这些成功高度依赖于大量人工标注的示范数据,而模型在更复杂问题上的能力仍然不足。本文展示了:可以通过纯强化学习(pure RL)来激励 LLMs 的推理能力,从而无需人工标注的推理轨迹。所提出的 RL 框架促进了高级推理模式的涌现,包括自我反思、结果验证以及动态策略调整。由此训练得到的模型在数学、编程竞赛和 STEM 等可验证任务上表现优于那些依赖人工示范、采用传统监督学习训练的同类模型。此外,这些大规模模型所展现的涌现推理模式,还能够被系统化地用于指导并增强小模型的推理能力。
从上段的「Abstract」中我们可以看到,问题的提出:通用人工智能的核心推理能力,目前严重依赖昂贵且带有偏见的人类标注数据。这是现有范式的根本瓶颈。
为了解决数据标注的成本和偏见问题,DeepSeek 假设:大模型的复杂推理能力,可以通过纯粹的 RL 强化学习,从一个简单的奖励信号(对/错)中「自发涌现」,而无需人类提供思考过程的范例。这直接挑战了主流依赖高质量监督微调(SFT)数据的范式。
R1-Zero 与 R1 的实验验证了这一假设。它们的成功不仅是一个模型性能的突破,更意味着探索出一条新的发展路径:机器能够在有限的人类数据之外,实现自主进化与自我强化。科学叙事直接升华到「AI 自主进化」这一宏大的科学主题。
2. Main
DeepSeek 提出了一种新的方法:通过 RL,让模型仅依靠任务结果的奖励信号(对/错),而不是依赖人类提供的思考示例,从而习得复杂的推理能力。
DeepSeek 团队展示了两个模型:
- DeepSeek-R1-Zero:完全基于 RL 训练,不使用人工标注思维链示例;
- DeepSeek-R1:在 RL 的基础上,结合少量精调以进一步提升性能。
实验表明,这种方法能够让模型在数学、代码、逻辑推理等领域获得强大能力,且表现可与依赖大规模标注的传统方法媲美甚至超越。研究强调,这为未来构建更高效、更自主的推理模型提供了新的路径。
3. DeepSeek-R1-Zero
DeepSeek-R1-Zero 是在 DeepSeek-V3 Base 基础模型上直接通过 RL 练得到的推理模型,其突出特点在于完全跳过 SFT 阶段,不依赖任何人工标注的推理轨迹。
训练过程中,DeepSeek 设计了结构化的输出格式,要求模型在 <think>...</think>
标签内生成推理过程,在 <answer>...</answer>
标签内输出最终答案,从而使奖励机制能够清晰地区分推理链条与答案本身。奖励函数主要包括两部分:其一是基于最终结果正确与否的准确率奖励,其二是确保输出符合预定格式的格式奖励;中间推理步骤并不受约束,这为模型提供了更大的探索空间。
为保证训练稳定性,DeepSeek 采用了改进的 GRPO(Group Relative Policy Optimization) 算法,通过在同一问题上生成多条候选输出并比较其奖励差异来更新模型。在这一训练框架下,模型逐渐展现出一系列涌现的高级推理行为,包括自我反思、答案验证以及动态调整推理路径等。这些行为并非由人工示范引导,而是完全由强化学习驱动的结果,证明了复杂推理能力可以仅依靠简单的结果反馈信号自发涌现,从而奠定了后续 DeepSeek-R1 改进与扩展的基础。
模型在训练过程中自主学会了反思、验证和探索多种解题路径等复杂行为。特别是那个经典的「Aha Moment」,模型在答题时自己说「wait、wait、wait」,这个例子直接将抽象的能力提升具象化为一个可以看到的「行为涌现」。
这个「Aha Moment」非常的 Amazing 啊!
4. DeepSeek-R1
DeepSeek-R1 在 DeepSeek-R1-Zero 的基础上进一步优化了训练流程,通过结合少量 SFT 和 RL,提升了模型的整体性能和可用性。与完全依赖 RL 的 R1-Zero 不同,R1 在训练中引入了精调数据,主要用于提升模型的语言可读性、对话一致性以及在复杂任务中保持稳定的推理表现。
同时,模型仍然保留了基于结构化输出的 <think>
与 <answer>
框架,以及对最终答案和格式的奖励设计,使其能够在保留自发推理能力的前提下增强对用户偏好和任务安全性的适应性。实验结果显示,DeepSeek-R1 不仅在数学、编码和 STEM 任务上取得更高的准确率,也在通用问答和开放性任务中表现出更强的稳定性和可靠性。此外,DeepSeek-R1 所展现的涌现推理模式能够被系统化地迁移与指导小模型,说明这种结合 RL 与适度监督的多阶段训练策略,不仅提升了模型能力,也为不同规模的模型提供了可复制的推理能力培养路径。
上图展示了 DeepSeek-R1 的多阶段训练流程(multistage pipeline),整个流程分为几个核心阶段,每个阶段都有不同的目标和训练策略。这个流程体现了论文中「从零起点到最终强化的推理能力 + 可用性」的逻辑。DeepSeek-R1 训练主要阶段如下:
- Base LLM(DeepSeek-V3 Base)
- 起点是一个通用的预训练语言模型,没有特定的推理训练;
- 提供基础语言理解和生成能力,为后续阶段提供模型初始化参数。
- RL from scratch → DeepSeek-R1-Zero
- 直接用强化学习训练,不依赖人工标注的推理示例;
- 奖励信号仅基于最终答案正确性和输出格式;
- 产生自发涌现的推理行为(如自我反思、验证、动态策略调整);
- 这是“零起点”实验,验证复杂推理可以通过 RL 自发出现。
- Cold-start SFT & task mixture
- 对 R1-Zero 的输出进行初步精调(supervised fine-tuning, SFT),主要用少量标注数据改善可读性和稳定性;
- 同时混合推理任务与非推理任务,保证模型在不同类型任务上的表现。
- Rejection sampling + RL fine-tuning → DeepSeek-R1
- 引入 rejection sampling:对模型生成的多个候选输出进行筛选,选择高质量的答案来进一步训练;
- 继续使用 RL fine-tuning 强化最终答案正确性和格式遵守情况,同时保留自发推理能力;
- 加入 reward model 衡量 helpfulness(有用性)和 harmlessness(安全性),让模型在推理能力和通用可用性之间达到平衡。
- Output / Distillation
- 最终生成 DeepSeek-R1 模型,同时可以对模型进行蒸馏(distillation),得到更小的模型版本;
- 小模型能继承大模型涌现出的推理能力,但适合计算资源有限的场景。
这真是全球首个公开的、可复现、可验证的学术成果,跟闭源的 CloseAI(OpenAI) 和其他 AI 企业的 技术报告(技术报告)或模型卡(Model Card)完全不同。
5. Ethics and safety statement
在研究 DeepSeek-R1 的过程中,团队充分意识到大规模语言模型在推理能力提升的同时可能带来的伦理和安全风险。为此,研究者在训练管道中引入了专门的奖励机制,用于衡量输出的安全性(harmlessness)和帮助性(helpfulness),以引导模型生成既安全又有用的内容。此外,模型生成的输出经过结构化约束和rejection sampling 筛选,以降低错误推理或不当内容的传播风险。尽管采取了这些措施,作者明确指出模型仍可能存在偏差、误导性推理或其他不当行为,因此在实际使用中仍需保持谨慎。研究团队强调,确保 AI 系统的伦理性、安全性和透明性是持续的责任,呼吁社区在部署和应用类似模型时继续关注这些问题,以实现能力提升与风险控制的平衡。
6. Conclusion, limitation and future work
DeepSeek-R1 多阶段训练框架展示了大型语言模型在无需依赖大量人工推理示范的情况下,通过强化学习和少量监督微调,可以自发涌现复杂的推理行为,包括自我反思、答案验证和动态策略调整。这一方法在数学、编码和 STEM 等可验证任务中表现优异,超越了传统依赖人工示范训练的模型。同时,研究还表明,这些涌现的推理模式可以迁移至小模型,显著提升其推理能力,为不同规模模型的推理能力培养提供了可复制的路径。
尽管取得了显著成果,DeepSeek-R1 仍存在若干局限。首先,模型在推理过程中可能出现语言混用或结构不够清晰,影响可读性;其次,模型在简单任务上有时会生成冗长不必要的推理步骤,增加计算成本;此外,目前模型在调用外部工具和整合外部知识方面能力有限;最后,如果奖励设计不完善,模型可能出现「投机取巧」行为,而非真正提升推理能力。
未来研究将重点优化奖励机制和训练算法,以提高模型生成有效推理的效率与质量。同时,将致力于提升模型在多语言环境下的可读性与一致性,并探索工具使用、知识检索及多模态信息融合的能力,以进一步增强模型的推理能力和实际应用价值。
7. Methods
Group Relative Policy Optimization(GRPO)是 DeepSeek-R1 强化学习阶段采用的策略优化算法 。它是在经典策略梯度方法基础上改进的一种 RL 算法,目的是提高训练大语言模型时的稳定性和效率,同时鼓励模型探索多样化的推理路径。
PPO 是 OpenAI 提出的强化学习算法(2017),核心思想是:在策略迭代(policy iteration)过程中,不能让新旧策略差异太大,会严格限制新策略与旧策略的偏离程度,代价是需要大量的计算来维持稳定。
GRPO 的核心思想是:是单条样本独立更新,而是让模型对一组候选响应同时进行比较,在一组候选中,表现更好的样本会得到更高奖励,而不是绝对依赖某个 reward model。GRPO 简化了 PPO 复杂的约束过程,不仅显著降低了资源消耗,还被证明在实践中同样稳定高效。
接下来是「Reward design」,其包括以下几个维度:
Rule-based rewards(基于规则的奖励)
基于规则的奖励系统主要包含两种类型的奖励:准确性奖励和格式奖励。
{{\rm{Reward}}}_{{\rm{rule}}}={{\rm{Reward}}}_{{\rm{acc}}}+{{\rm{Reward}}}_{{\rm{format}}}
- 利用明确规则对输出进行奖励,例如:
- 输出是否符合
<think>
/<answer>
结构; - 输出中答案是否满足基本语法或格式要求;
- 输出是否符合
- 目的是保证输出可解析、结构清晰,便于奖励判定。
Model-based rewards(基于模型的奖励)
基于 DeepSeek-V3 流程构建,并使用类似的偏好对分布和训练提示。为了确保有用性,我们专注于最终摘要,确保评估强调响应对用户的实用性和相关性,同时最大限度地减少对底层推理过程的干扰。
- 使用训练好的奖励模型(reward model)对候选输出进行打分,而非直接依赖规则。
- 奖励模型可评估输出的合理性、推理连贯性和最终答案正确性。
Helpful reward model(有用的奖励模型)
在 DeepSeek-R1 的训练框架中,有用的奖励模型(Helpful reward model)用于衡量模型输出对用户的实际帮助性。为训练该奖励模型,研究团队构建了 66,000 对偏好数据,每对包含一个用户查询及两个候选回答。偏好评分通过 DeepSeek-V3 多次判断并随机分配候选顺序,以减轻位置偏差,且仅保留评分差异明显(Δ > 1)的数据对,以确保奖励信号的有效性。同时,为避免长度相关的偏差,选中的回答与被拒绝回答在长度上保持一致。所用提示均为非推理问题,来源于公开数据集或用户明确授权的数据。奖励模型采用与 DeepSeek-R1 相同的架构,并额外加入 reward head,用于预测标量偏好分数,从而为强化学习阶段提供有用性导向的奖励信号,促进模型生成实用且高质量的输出。
{{\rm{Reward}}}_{{\rm{helpful}}}={{\rm{RM}}}_{{\rm{helpful}}}({{\rm{Response}}}_{{\rm{A}}},{{\rm{Response}}}_{{\rm{B}}})
有用的奖励模型以 256 的批次大小、6 × 10 −6 的学习率在训练数据集上进行单轮训练。训练期间的最大序列长度设置为 8,192 个 token,但在奖励模型推理期间没有明确限制。
Safety reward model(安全奖励模型)
为了评估和提升模型安全性,DeepSeek 整理了一个包含 106,000 条提示的数据集,其中模型生成的响应根据预定义的安全准则标注为「安全」或「不安全」。与帮助性奖励模型中使用的成对损失不同,安全奖励模型采用逐点方法进行训练,以区分安全和不安全的响应。训练超参数与帮助性奖励模型相同。
{{\rm{Reward}}}_{\text{safety}}={{\rm{RM}}}_{\text{safety}}({\rm{Response}})
模型训练细节(Training details)请阅读原文,这里只讨论了 GRPO 算法。
Author
值得注意的是作者列表的第 48 位—— 涂津豪,曾在腾讯混元、DeepSeek 实习,开源项目 Thinking-Claude 的作者(15.7k+ star),2024 阿里全球数赛 AI 挑战赛冠军。高中生,已经发 Nature 了!
Costs
在 DeepSeek-V3 Technical Report 中,Table 1 提到了 V3 模型的训练成本是 557.6 万美元(约 4,000 万人民币)。训练使用 64×8 H800 GPU,R1-zero 用了 198 小时,R1 只用了 4 天,约 80 小时。
在 Reviewer #6 的追问下,我们可以看到 DeepSeek-R1 在 Supplementary Information(补充信息)中添加了训练费用和硬件信息。
关于 DeepSeek-R1 利用 A100 GPU,使用较小的模型(30B 参数)进行实验。对于 DeepSeek-R1-Zero 的训练,使用了 648 H800 GPU, 整个过程大约需要 198 个小时。此外,在DeepSeek-R1 的训练 ,我们同样使用了 648 个 H800 GPU,在大约 4 天内完成了,大约需要 80 个小时。
DeepSeek-R1 花费了 29.4 万美元(约 210 万人民币)。
Peer Review
Reviewer #1、#2、#3 都对这篇文章给予了很高的评价,特别是对于 LLMs 首发性文章、RL 部分和后训练等。
Reviewer #6 对于 pure RL 路线给予了很高的评价:R1-zero 是第一个将 pure RL(包括去年推出的最新高效 GRPO 算法)应用于预训练 LLM 的明确成功案例(至少是公开的)。 足够好,可以通过 CoT 受益。
Reviewer #8 明贬实褒,抛出核心争论。首先是 Deepseek-R1 涉嫌蒸馏 GPT-4 等的嫌疑。Deepseek-R1 也承认预训练数据可能无意中包含网络上的AI内容,但坚称核心贡献 R1-Zero(纯RL模型)绝无蒸馏,是原创的科学突破。后续的 R1 模型为了提升产品易用性才加入了辅助数据。
接下来又要证明是 RL 是性能提升的关键,而不是 SFT 的原因。Deepseek-R1 指向附录数据证明,纯 RL 模型(R1-Zero)的推理性能已与最终模型相当,证实了RL是提升推理能力的核心驱动力。
Reviewer #8 又担心「数据污染 」,「My initial request asked to run your experiments with a base model that was not exposed to reasoning traces」。DeepSeek-R1 也进行了回应,使用 Qwen 2.5(Qwen 2.5 发布于 2024 年 9 月 19 日,ChatGPT-o1 发布在 2024 年 9 月 12 日,不太可能短时间内就被污染。)为基座,也实现了很好的效果。为了更严谨,又做了一个新实验,用更早发布的 Qwen2-7B(2024 年 6 月) 作为基座。其结果显著超过了没有推理能力的 Qwen2-Math-7B-Instruct 和 GPT-4o,证明了即使没有污染,纯 RL 也能自主发展出推理能力。
Discussion
DeepSeek-R1 被称为第一个明确的成功案例(而且是公开的),说明之前在这条路线上的尝试都没有那么亮眼或成果不足以公开。这里强调的是它在学界/业界留下了一个「里程碑」,也是对纯强化学习(pure RL)的路线的肯定。GRPO 算法的效率和新颖性,起到了关键作用。
这篇文章也告诉我们,前提条件是预训练 LLM 已经够强,再使用 pure RL 可以使得模型的推理能力获得巨大提升。这件事成立的原因之一是:LLM 已经足够强大,可以从 CoT 推理中获益。