谷歌DeepMind研究员揭秘：Coding模型是怎么炼成的，模型上限在哪

硅谷洞察局

105分钟 ·2个月前

6949

🎙️ 硅谷洞察局 EP04 | 谷歌DeepMind研究员揭秘：Coding模型是怎么炼成的，模型上限在哪

一线洞察，深度思考。硅谷核心科技从业者，带你触摸AI变革深处。

---

📌 本期看点

英伟达GTC大会刚刚落幕，大模型在过去半年经历了一轮又一轮的迭代。本期节目，我们请到了前Google DeepMind资深研究员Warren Chen——一位在coding agent方向深耕多年、现已投身创业的一线技术人，和我们做了一场关于大模型训练范式演化的硬核技术对谈。

从Pre-training到RLHF，从Verifiable Feedback到Mid-Training，从Harness Engineering到Agent Environment——Warren用"看课本、做习题、考试"的类比，把大模型训练的三次范式跃迁讲得通透。如果你想理解为什么Coding Agent突然爆发、为什么Anthropic能持续领先、以及创业者该押注什么方向，这期不容错过。

---

📖 本期术语速查（听到不熟悉的词？翻这里）

Pre-training（预训练）：让AI把互联网上海量文字都"看"一遍，相当于通读所有课本

SFT（监督微调）：给AI做示范题，手把手告诉它"这道题应该这么答"

RLHF（人类反馈强化学习）：请人类给AI的两个回答打分，AI学着挑人更喜欢的那个

RLVF（可验证反馈强化学习）：不用人打分了，直接对答案。代码跑通就是对，没跑通就是错

Chain-of-Thought（思维链）：让AI像人一样"先想一想再回答"，而不是直接蹦出答案

Mid-Training（中间训练）：只教AI答题的格式（怎么填答题卡），不教具体解法，让它自己悟

Reward Signal（奖励信号）：告诉AI"你这次做对了还是做错了"的反馈

Harness（执行框架）：AI模型和真实世界之间的脚手架，帮AI接住任务、管理记忆、处理出错

Environment（执行环境）：AI能触达的所有工具和权限——邮箱、浏览器、代码编辑器、操作系统等

Scaling Law（规模定律）：模型越大、数据越多、算力越强 → AI能力越强，这条规律目前仍然成立

Benchmark（基准测试）：AI界的"高考模拟卷"，用标准化测试对比各家模型的分数

Agent（智能体）：不只是聊天的AI，而是能自主写代码、发邮件、操作软件、完成复杂任务的AI

Superhuman（超越人类）：AI在某个领域的表现超过了最优秀的人类专家

---

🗂️ 内容大纲

一、大模型训练的三次范式跃迁

第一阶段：人类当老师（2022-2023）

三步流程：先通读课本（Pre-training），再做随堂练习（SFT），最后请人类老师批改作文、打分（RLHF）

ChatGPT为什么让人惊艳？两件事做对了：你说什么它能照做（Instruction Following），而且说话方式让你觉得舒服

瓶颈在哪？人类老师再厉害也是人。用人打分训练出的AI，天花板就是人类水平本身

第二阶段：机器自己出题考自己（2023-2024）

核心变化：把"请人打分"换成"直接对答案"。数学题算出86.736就是86.736，代码跑通就是跑通，不需要人来判断

为什么数学和Coding最先突破？因为它们天然满足三个条件：答案可以验证、不能靠猜、过程必须正确才能得出正确结果

Chain-of-Thought（思维链）从一个prompt技巧，变成了模型自己会做的事。以前你得在提示词里写"请一步步思考"，现在模型自己就会先想再答

Coding能力 + 思维链能力同时提升，互不干扰 → 这就是去年Coding Agent突然爆发的技术根源

第三阶段：只教姿势，不教答案（2024至今）

以DeepSeek R1为代表的新范式：SFT阶段不再教AI怎么解题，只教它"把答案写在花括号里"这种格式要求。类比：只教天才怎么填答题卡，不告诉他选A还是选B

为什么？因为人类的解题思路反而会成为天才的负担。你教他高中数学的做法，他可能用微积分一步就解出来了

真正的学习全部发生在RL阶段：AI自己做题、自己验证、自己进化。人类只提供题目和判分规则

这是AI第一次真正有可能超越所有人类专家。The Bitter Lesson（苦涩的教训）的完美印证：少干预，多放手，让算力和数据自己说话

二、Coding为什么是通往AGI的钥匙？

Coding不是目的，是Agent能力的最佳近似（best proxy）

你不能直接训练Agent，但可以通过Coding训练Agent能力

把任何问题转化为Coding Problem = 吃到未来两年AI红利

视频剪辑（Remotion）、UI设计（Pencil）、数据分析都可以被Coding表达

100%效率提升 → 用工具；1000%效率提升 → 围绕工具重构工作流

三、为什么Anthropic一直领先？各家差距在哪？

研究员视角拆解三大壁垒：

壁垒一：Pre-training（科学问题，Scaling Law需要慢慢做，急不来）

壁垒二：数据质量（Moving Target，今天有用的数据明天就太简单了）

壁垒三：Evaluation（Superhuman能力怎么测？SWE-bench已经失效）

Anthropic数据飞轮的真正含义：不是直接用用户数据，而是从用户行为中提取North Star

Codex + GPT 5.4 vs Claude Opus：Opus是组里不说话的大神，Codex是最后抢功的TL

Google的护城河：人才密度、现金流、芯片到算法的垂直整合

四、Harness会消失吗？Agent的终局在哪？

三层模型：Foundation Model → Harness → Environment

Harness = 脚手架（context压缩、任务续接、to-do维护、early termination）

暴论：Harness是过渡产物，中间层会越来越薄，被两端吃掉

模型变强吸收上层，大厂API吸收下层（memory、compaction最终会被内置）

OpenClaw的两大洞察：无限Environment + Agent Identity（24/7持续存在的智能体，而非用完即弃的Ghost Intelligence）

五、创业者该怎么选方向？

第一步：用第一性原理预测未来3-6个月，不要用后验经验

第二步：想清楚不变的商业规律——Brand、Scale、Network Effect、Embedding

"When everything changes, nothing changes"

两个最看好的方向：Agent Environment（造路和桥）、Agent Identity（IAM第四层）

不要站在基座模型对立面：不做"模型不够好所以我来补"的生意

Build for a beautiful future model：假设模型更强更便宜时，你的产品是否依然有价值

不要有Producer Illusion：iPhone已经来了，别想着造iOS，去造App

---

🎤 主播与嘉宾

AI-Nate｜硅谷AI工程师，18周打造18个AI Agent产品，AI课程导师

AI-Siky｜斯坦福毕业，10年+硅谷经验，曾主导多家独角兽增长，现任顶级科技公司战略合作负责人

Warren Chen｜前Google DeepMind资深研究员，Coding Agent方向，现创业中，LinkedIn链接：www.linkedin.com

---

🔗 相关资源

DeepSeek R1论文：deepseek.com

Remotion（用React写视频剪辑）：remotion.dev

上期回顾（EP03）：龙虾潮背后Skill经济的崛起-饥饿游戏或成现实！

EP02回顾：深度拆解Anthropic：一个物理系学生如何造出硅谷最危险的AI公司（小宇宙爆款）

---

⏱️ 时间戳

00:00 开场 & 嘉宾介绍：前Google DeepMind研究员Warren

00:43 英伟达GTC大会背景 & 本期主题

02:35 第一阶段：Pre-training + SFT + RLHF，大模型训练的经典三步

06:30 RLHF详解：人类打分的Reward Model是怎么工作的

08:48 RLHF的天花板：人类反馈永远无法训练出Superhuman

10:14 第二阶段：从RLHF到RLVF，数学领域的突破

13:00 两条分叉路径：Coding Reward + Chain-of-Thought

15:33 Chain-of-Thought：从prompt技巧到模型内生能力

18:00 Coding + CoT正交融合 → Coding Agent大爆发

19:33 第三阶段：Seed Not Teach，Mid-Training范式革命

22:00 DeepSeek R1案例：只教格式，不教内容

26:00 培养天才的方法论：不要用普通学生的套路

29:26 The Bitter Lesson的完美印证

31:30 研究员现在关注什么？更好的习题 + 更好的评估

33:00 Anthropic为什么能持续领先？数据飞轮的真正含义

39:00 把任何问题转化为Coding Problem = 吃到AI红利

43:00 实例：Remotion用React写视频剪辑

46:00 100% vs 1000%效率提升：用工具 vs 围绕工具建工作流

48:00 大模型竞争格局：各家在Coding上你追我赶

49:30 Coding不是目的，是通往Agent能力的最佳近似

50:50 为什么道理都懂却过不好？三大壁垒解析

51:00 壁垒一：Pre-training是科学+工程问题，急不来

55:00 壁垒二：数据质量是Moving Target

58:00 壁垒三：Evaluation——Superhuman能力怎么测？

59:00 SWE-bench的局限性 & IDE范式 vs Agent范式

1:01:00 Codex + GPT 5.4 vs Opus：哪个才是最强Coding模型？

1:04:30 OpenAI = Mid-Training纯粹派，Anthropic = SFT精修派

1:07:00 Harness是什么？Foundation Model → Harness → Environment

1:15:00 Harness实例：任务续接、Context压缩、To-do维护

1:18:00 暴论：Harness是过渡产物，中间层会消失

1:22:00 Environment才是终局：谁控制环境，谁控制Agent

1:24:00 OpenClaw的核心洞察：Environment + Agent Identity

1:26:00 IAM第四层：Agent不应该用人类的身份体系

1:28:00 产品应该给Agent用，不是给人用——Token消耗量10-100倍

1:30:00 创业两步走：第一性原理 + 不变的商业规律

1:33:00 "When everything changes, nothing changes"

1:36:00 不要站在基座模型的对立面

1:38:00 Build for a beautiful future model

1:42:00 快问快答：每天用什么AI工具？推荐论文？入行建议？

1:44:30 收尾 & 感谢

---

📮 联系我们

播客主页：ai-nate.com (附视频版地址)

播客邮箱：nathan@ai-nate.com

欢迎评论区留言交流，转发支持！

---

🎙️ 「硅谷观察局」亲友群开放啦！

听了这么多期，是不是有时候想跟我们聊几句？

💬 和Nathan、Siky直接交流讨论

🎯 告诉我们下期你想听什么话题

我们群里见！

---

🎁 听众福利

想亲手体验 Vibe Coding？Nathan 开设了一堂免费快闪课程——从零开始，用 Cursor + Claude Code 搭建你的第一个AI项目。不需要编程基础，跟着做就行。

👉 免费报名：Agentic Coding Zero-to-Shipped

展开Show Notes

lr_JQYW

2026.3.21

Warren真是想得非常透彻的金句大师！唯一遗憾是收音质量没有很完美

AI-Nate

:Warren确实金句频频，沉淀得深，才有这个维度的理解。收音确实有些问题，我们已经更换了设备。🙏

AI-Nate

:利用我们的剪辑Agent再次修复了一下音频，你看看是不是会好一些。之前有卡顿的地方应该会有好转。

共5条回复

AI-Nate

2026.3.21

花絮分享：在我们这次现场录制的时候，还有顶级投资人朋友亲临现场旁听，也算是我们第一次有观众的录制。最后的掌声就是这位朋友给到我们的，谢谢他百忙之中的支持！

粒莎

2026.4.01

感觉可以用剪影的音频工具再处理下试试，音频-人声美化（去混响）

AI-Nate

:有朋友推荐了Adobe，可以试一试。之前已经用AI Agent优化过了。

Rockychang7

10天前

节目质量很高学到不少东西！我个人在使用coding agent的过程现在感觉memory这一层的管理非常困难，之前也用了一些开源工具，现在包括像codex还提供内置的记忆体系。但是都没有解决记忆不完整或者错乱的问题。比如让agent处理一个本身已经很大的业务项目，首先很多的背景知识就已经缺失，然后随着功能的迭代多agent之间对于记忆的更新可能会冲突或者遗漏。并且记忆如何抽象才能保证知识密度也是一个人很大的问题，不知道大家是怎么缓解这个问题的，我个人的话现在很多情况还要人工提醒或者是通过规则去规避一些问题。

猪肉卷_KCVi

2026.4.05

重音关键词全是含糊不清的英文，拾音效果太差，洋泾浜英文太多，不如索性全英文访谈。这么大比例的洋泾浜自己不觉得难受么？

AI-Nate

:感谢反馈 🙏 音频拾音确实是我们在持续优化的部分，会持续改进。中英混用这个事儿，说实话在硅谷做科技话题确实很难完全避免——很多概念用英文是行业通用表达，硬翻反而别扭。但你说得对，比例和节奏可以更讲究，我们会注意。不过「洋泾浜」这个词可能有点重了哈😂 我们还是有认真在讲人话的～

别处理

2026.4.02

麦克风有点差了，太影响收听了

AI-Nate

:收到，我们新设备已经到了，下期会有改进的。谢谢收听！

MagicLiz

2026.4.01

建议把字幕校对一下，对AI小白的听众更友好。自动字幕里很多英文不对，导致去搜索也搜不到，带来了理解难度

AI-Nate

:谢谢建议！我们下次也在Show Note里把英文的部分都补全。

AI-Nate

:您这收听时长有点猛啊！佩服！我见过最高的了。

AI-Nate

2026.3.21

花絮分享：在我们发现音频录制时，因为多个麦克风加上空间回响，使得录制的音频带有回声，甚至在转码后产生卡顿现象。使得我们不得不在网上找到一些现成的软件解决方案，搜索了几个感觉效果不是那么明显，而且价格还很怪。于是，我们索性把问题都给了我们自己的剪辑Agent（基于coding agent所开发），看看它是否有什么办法。没想到剪辑Agent直接调用了几个语音修复的库，没一会就帮我们降噪去回声，音频效果比之前好了许多。

分享这个花絮是想应证节目中所讨论的两点：
1. 生活工作的大部分场景都可以被转化为code，coding agent必将发挥巨大的作用；
2. 类似提供服务的SAAS软件，甚至是个人软件供应商，都将被coding agent拍死在沙滩上；

个人的启示：vibe coding赶快学起来！