EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

2025年第一期OnBoard! 让大家久等了！没错，这个话题我们怎么能绕的过去：Deepseek!

Deepseek 春节前夕发布的开源推理模型 Deepseek r1，无疑是整个世界最令人关注的新闻，不论你过去是否关注 AI，相信都已经被关于 Deepseek 的各种新闻和解读轰炸了好久。但是 OnBoard! 的硬核讨论，迟来却不过时。

Hello World, who is OnBoard!?

Deepseek R1 在数学、代码和各种推理能力比肩市面上最强的 OpenAI o1 正式版模型，同时又以其技术创新带来的极低的训练和推理成本，以及完全开源的特点，点燃了全世界对于推理模型，以及中国AI实力的关注。

在各种讨论的虚虚实实中，OnBoard! 一直想做的，就是找到尽可能全面和客观的视角，追寻到技术和创新的本质。于是，我们邀请到了横跨中美的一线研究员和从业者，跟大家聊聊：

到底如何看待 Deepseek 一系列模型的创新？

推理模型最核心的难点是什么？

DeepSeek 会对开源大模型生态带来哪些变化？

这次嘉宾也是站在学术和开源的前沿：

有备受关注的、最早尝试复现 r1 能力的 TinyZero 项目的一作，

有来自卡耐基梅隆大学研究推理最核心的 Long COT (Chain of Thoughts) 的研究员，

还有返场嘉宾，前 Google Tensorflow 成员、Huggingface 社区资深贡献者。

他们从推理、COT、infra和开源几个角度，从技术本质到行业影响，兼顾发散和深度地畅聊关于 Deepseek 的已知和未知，过去与未来。相信已经非常饱和的各种信息中，还可以给大家带来一些启发。

需要说明的是，其中来自 SGlang 的嘉宾因为临时原因没有参与录制，与他的补录正好又是关于模型推理的专业话题，我们就决定放在下一期作为一个相对技术的 bonus episode. 很快会放出来，敬请期待！

毫不意外，这次讨论又是长达三个多小时。但是一定值得你的时间！Enjoy!

嘉宾介绍

Xiang Yue, 岳翔 (个人主页), Postdoc @CMU, 师从 Prof. Graham Neubig，专注于提升模型推理能力的前沿专家

Jiayi Pan, 潘家怡 (个人主页）, PhD @Berkeley AI Research, 师从 Alane Suhr

Tiezhen Wang, Huggingface 资深工程师，前 Google Tensorflow 资深工程师

OnBoard! 主持：Monica（小红书/即刻：莫妮卡同学）：美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人

PS 欢迎关注 Xiang Yue 最新的论文，Demystifying Long CoT Reasoning in LLMs（arxiv.org）关于 Long CoT 在模型推理能力中的作用有很有意思的发现！

我们都聊了什么

解析 DeepSeek R1 技术核心

03:34 几位嘉宾自我介绍，fun fact: DeepSeek R1 让你惊艳的使用场景是什么？好的文笔是背诵还是理解？

17:53 如果用 RL 生产数据越来越重要，还需要人类标注数据吗？

23:52 DeepSeek R1-Zero 为什么值得关注？跟R1是什么关系？TinyZero 复现 R1 的过程中有什么启发？

35:11 为什么看似简单的 Long CoT 的做法，一直到现在才被广泛用起来？Long CoT 的研究沿革和进展是怎样的？

48:29 推理模型的 Aha Moment 是什么？跟模型的“涌现能力”有什么关系？

51:13 澄清一下！正确理解“成本30美金”！

52:36 Long CoT 的实现有什么难点？DeepSeek 做了哪些值得关注的创新？

58:33 做 Coding agent 的经验：模型 coding 能力能泛化到更广泛的 Agent 能力吗？

62:32 SFT 在R1 训练中的作用？RL生成数据成本会比人工标注低吗？

71:46 Scale up RL 的难点是什么？为什么说这是 DeepSeek infra能力中容易被忽视的点

74:08 开源社区的 infra 限制，会对复现后续研究 RL 和推理模型相关工作有什么影响？

79:57 为什么说 Rewards and Simulators are all you need：还有哪些挑战？

94:34 MoE vs Dense model 的选择：业界已经是共识了吗？

107:29 DeepSeek 蒸馏 OpenAI 的数据了吗？

112:14 OpenAI o3 思维链中出现了中文应该如何理解？

大模型开源生态会发生什么变化

115:52 开源大模型需要将数据开源吗？

123:01 开源和闭源模型的差距会一直存在吗？这个差距对于使用者和模型公司意味着什么？

127:44 未来开源推理模型都会向 DeepSeek R1 的路线上收敛吗？对开源生态会有怎样的影响？

131:36 从 DeepSeek V3 到 R1, 有了基座模型训练推理模型，只需要几周的时间吗？

132:59 开发者选择开源还是闭源模型，有怎样的考量？今年开源大模型生态有哪些变化值得期待？

142:13 如何理解：Agentic workflow 只有短期价值，长期会被模型能力取代？Agent 公司的核心能力是什么？

未来展望与宏观思考

149:30 2025年，几位嘉宾的工作重点是什么？

155:22 AI 领域有什么过热的以及还没有被充分讨论的话题？

160:36 过去半年有什么观点的变化？

164:08 AI超越大部分人类智能的时候，你的生存意义是什么？

重点词汇

Reinforcement Learning

Chain of Thoughts

Dense model

Agentic workflow

参考文章

Xiang 最新的论文：Demystifying Long CoT Reasoning in LLMs

TinyZero: github.com

Deepseek
V3: github.com
R1: github.com
R1 zero: arxiv.org
mp.weixin.qq.com万字解析DeepSeek 成长史

www.latent.space

semianalysis.com

arcprize.org

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考，与听友们互动。喜欢 OnBoard! 的话，也可以点击打赏，请我们喝一杯咖啡！如果你用 Apple Podcasts 收听，也请给我们一个五星好评，这对我们非常重要。

最后！快来加入Onboard！听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加任意一位小助手微信，onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来！