Vol 4 | DeepSeek R1论文：用强化学习点燃大模型的推理能力

6分钟 ·1 年前

2

·

0

🎙️【AI 推理新革命！DeepSeek-R1 用强化学习让大模型智商狂飙】🚀

🌟 本期焦点：无需监督学习，RL 如何让 AI 自主进化推理力？

DeepSeek 最新研究颠覆传统：纯强化学习（RL）竟能让大模型跳过监督微调（SFT），从零进化出超强推理能力！从数学竞赛到代码生成，DeepSeek-R1 系列用数据证明：RL 才是解锁 AI 推理潜力的「终极密码」🔑

🧠 模型双雄：R1-Zero 与 R1 的技术突破

DeepSeek-R1-Zero：纯 RL 的奇迹诞生直接对基础模型应用 GRPO 算法，在 AIME 2024 数学竞赛中，Pass@1 分数从 15.6% 猛增至 71%，多数投票后达 86.7%，性能追平 OpenAI-o1-0912！
模型自发涌现「自我反思」行为：解题时主动重评估思路，甚至用拟人化语气纠正错误，展现类人类推理逻辑。

DeepSeek-R1：冷启动 + 多阶段优化升级用数千条长链思维（CoT）数据预热，结合 RL 与拒绝采样 SFT，解决 R1-Zero 的可读性与语言混合问题。
性能直逼 OpenAI-o1-1217：AIME 2024 得 79.8%，MATH-500 达 97.3%，Codeforces 评级 2029 超越 96.3% 人类选手。

💡 三大技术创新点亮推理之路

GRPO 算法革新：抛弃传统 Critic 模型，通过分组策略优化降低训练成本，用优势函数精准平衡奖励信号。

规则化奖励模型：仅用「答案正确性」和「格式规范」约束，规避神经奖励模型的「奖励欺骗」风险。

推理蒸馏革命：将 R1 推理模式迁移到小模型，Qwen-32B 蒸馏后 AIME 得分 72.6%，远超同规模 RL 训练模型。

📊 硬核数据：R1 系列的推理统治力

AIME 2024:79.8% Pass@1，超越 OpenAI-o1-1217（79.2%）

MATH-500:97.3% Pass@1，持平 o1-1217

Codeforces：2029 评级，超越 96.3% 人类选手

知识问答 MMLU：90.8%，逼近 o1-1217 的 91.8%

⚙️ R1 训练四步法：从冷启动到全能进化

冷启动预热：用数千条长 CoT 数据微调模型，打好推理基础。

推理向 RL：聚焦数学 / 代码任务，强化多步思考，引入「语言一致性奖励」。

拒绝采样 SFT：用 60 万推理数据 + 20 万非推理数据（写作 / 事实 QA）训练，平衡推理与通用性。

全场景 RL：结合规则奖励与人类偏好，炼成全能模型。

🔮 未来挑战与开源贡献

现存问题：中文事实问答因安全 RL 拒绝回答致性能波动，多语言推理需优化。

开源计划：公开 R1-Zero、R1 及 6 个蒸馏模型（1.5B-70B），助力小模型推理研究。

🎧 本期金句

「当 RL 让模型学会自我进化，推理不再是人类专利 ——DeepSeek-R1 证明，给 AI 正确的『激励』，它能自己攀上推理高峰。」

🔗 论文链接：arXiv:2501.12948v1

在小宇宙打开