论文链接:arxiv.org
论文发表时间:2025年1月22日
论文解读
DeepSeek-R1是DeepSeek团队于2025年发布的一款通过强化学习(Reinforcement Learning, RL)显著提升推理能力的大型语言模型(LLM)。其核心目标是通过创新的训练方法,突破传统依赖监督微调(SFT)的局限,实现模型在数学、编程、逻辑等复杂任务中的自主推理能力。
一、模型架构与训练方法
1. DeepSeek-R1-Zero:纯强化学习的原始版本
- 训练框架:基于预训练模型DeepSeek-V3-Base,完全跳过监督微调(SFT),直接采用 Group Relative Policy Optimization (GRPO) 算法进行强化学习。
- 奖励设计:结合准确性奖励(答案正确性验证)和格式奖励(强制推理过程与答案的标签化输出),避免使用复杂的神经奖励模型,降低训练成本并减少奖励滥用风险。
- 性能表现:在AIME 2024数学推理基准测试中,准确率从初始的15.6%提升至71.0%,通过多数投票(64次采样)后达到86.7%,接近OpenAI的o1-0912模型。
2. DeepSeek-R1:优化版的多阶段训练
- 冷启动数据:引入少量高质量标注数据(如长思维链示例),通过监督微调初始化模型,提升输出的可读性与结构化。
- 四阶段训练流程:
- 冷启动微调:优化模型生成清晰推理过程的能力;
- 推理导向的RL:结合格式与语言一致性奖励,减少中英混杂等问题;
- 拒绝采样与SFT:生成80万条数据(60万推理任务+20万通用任务)进行二次微调;
- 全面RL对齐:优化安全性和多场景适应性。
- 性能提升:在MATH-500测试中达到97.3%准确率,Codeforces编程任务Elo评分2029(超越96%人类选手),综合性能对标OpenAI-o1-1217。
二、关键技术创新
1. GRPO算法
- 高效强化学习:舍弃传统PPO中的Critic模型,通过组内输出采样的相对优势优化策略,显著降低计算成本。
- 稳定性保障:引入ε控制学习步长上限、β惩罚参数偏移,缓解灾难性遗忘问题。
2. 推理能力蒸馏
- 小模型性能跃升:将DeepSeek-R1生成的80万条数据用于微调开源小模型(如Qwen和Llama系列),使7B参数模型在AIME 2024上达到55.5% Pass@1,超越部分32B模型。
3. 自我进化与复杂行为涌现
- 反思与多路径探索:模型在RL训练中自发产生反思机制(重新评估推理步骤)和多策略尝试,无需显式编程。
- “顿悟时刻”现象:在解决复杂问题时,模型突然修正初始错误策略,类似人类的灵感涌现。
三、性能评估与基准对比
- 推理任务:AIME 2024(79.8% Pass@1)、MATH-500(97.3%)、Codeforces(Elo 2029),均与OpenAI顶尖模型持平。
- 知识任务:MMLU(90.8%)、GPQA Diamond(71.5%),超越DeepSeek-V3,略逊于o1-1217。
- 通用任务:AlpacaEval 2.0胜率87.6%,长上下文理解显著优于前代模型。
四、挑战与未来方向
- 现存问题:可读性不足、语言混合(如中英混杂)、对提示结构敏感,软件工程任务表现有限。
- 优化方向:提升语言一致性、增强非推理任务能力、优化RL在低效领域(如代码生成)的应用。
五、开源贡献与影响
- 模型开源:发布DeepSeek-R1-Zero、DeepSeek-R1及6个蒸馏小模型(1.5B~70B参数),基于Qwen和Llama架构。
- 社区意义:为资源有限的研究者提供高效推理模型,推动AI推理技术的民主化。

