🎙️ 硅谷洞察局 EP04 | 谷歌DeepMind研究员揭秘:Coding模型是怎么炼成的,模型上限在哪
一线洞察,深度思考。硅谷核心科技从业者,带你触摸AI变革深处。
---
📌 本期看点
英伟达GTC大会刚刚落幕,大模型在过去半年经历了一轮又一轮的迭代。本期节目,我们请到了前Google DeepMind资深研究员Warren Chen——一位在coding agent方向深耕多年、现已投身创业的一线技术人,和我们做了一场关于大模型训练范式演化的硬核技术对谈。
从Pre-training到RLHF,从Verifiable Feedback到Mid-Training,从Harness Engineering到Agent Environment——Warren用"看课本、做习题、考试"的类比,把大模型训练的三次范式跃迁讲得通透。如果你想理解为什么Coding Agent突然爆发、为什么Anthropic能持续领先、以及创业者该押注什么方向,这期不容错过。
---
📖 本期术语速查(听到不熟悉的词?翻这里)
Pre-training(预训练):让AI把互联网上海量文字都"看"一遍,相当于通读所有课本
SFT(监督微调):给AI做示范题,手把手告诉它"这道题应该这么答"
RLHF(人类反馈强化学习):请人类给AI的两个回答打分,AI学着挑人更喜欢的那个
RLVF(可验证反馈强化学习):不用人打分了,直接对答案。代码跑通就是对,没跑通就是错
Chain-of-Thought(思维链):让AI像人一样"先想一想再回答",而不是直接蹦出答案
Mid-Training(中间训练):只教AI答题的格式(怎么填答题卡),不教具体解法,让它自己悟
Reward Signal(奖励信号):告诉AI"你这次做对了还是做错了"的反馈
Harness(执行框架):AI模型和真实世界之间的脚手架,帮AI接住任务、管理记忆、处理出错
Environment(执行环境):AI能触达的所有工具和权限——邮箱、浏览器、代码编辑器、操作系统等
Scaling Law(规模定律):模型越大、数据越多、算力越强 → AI能力越强,这条规律目前仍然成立
Benchmark(基准测试):AI界的"高考模拟卷",用标准化测试对比各家模型的分数
Agent(智能体):不只是聊天的AI,而是能自主写代码、发邮件、操作软件、完成复杂任务的AI
Superhuman(超越人类):AI在某个领域的表现超过了最优秀的人类专家
---
🗂️ 内容大纲
一、大模型训练的三次范式跃迁
第一阶段:人类当老师(2022-2023)
三步流程:先通读课本(Pre-training),再做随堂练习(SFT),最后请人类老师批改作文、打分(RLHF)
ChatGPT为什么让人惊艳?两件事做对了:你说什么它能照做(Instruction Following),而且说话方式让你觉得舒服
瓶颈在哪?人类老师再厉害也是人。用人打分训练出的AI,天花板就是人类水平本身
第二阶段:机器自己出题考自己(2023-2024)
核心变化:把"请人打分"换成"直接对答案"。数学题算出86.736就是86.736,代码跑通就是跑通,不需要人来判断
为什么数学和Coding最先突破?因为它们天然满足三个条件:答案可以验证、不能靠猜、过程必须正确才能得出正确结果
Chain-of-Thought(思维链)从一个prompt技巧,变成了模型自己会做的事。以前你得在提示词里写"请一步步思考",现在模型自己就会先想再答
Coding能力 + 思维链能力同时提升,互不干扰 → 这就是去年Coding Agent突然爆发的技术根源
第三阶段:只教姿势,不教答案(2024至今)
以DeepSeek R1为代表的新范式:SFT阶段不再教AI怎么解题,只教它"把答案写在花括号里"这种格式要求。类比:只教天才怎么填答题卡,不告诉他选A还是选B
为什么?因为人类的解题思路反而会成为天才的负担。你教他高中数学的做法,他可能用微积分一步就解出来了
真正的学习全部发生在RL阶段:AI自己做题、自己验证、自己进化。人类只提供题目和判分规则
这是AI第一次真正有可能超越所有人类专家。The Bitter Lesson(苦涩的教训)的完美印证:少干预,多放手,让算力和数据自己说话
二、Coding为什么是通往AGI的钥匙?
Coding不是目的,是Agent能力的最佳近似(best proxy)
你不能直接训练Agent,但可以通过Coding训练Agent能力
把任何问题转化为Coding Problem = 吃到未来两年AI红利
视频剪辑(Remotion)、UI设计(Pencil)、数据分析都可以被Coding表达
100%效率提升 → 用工具;1000%效率提升 → 围绕工具重构工作流
三、为什么Anthropic一直领先?各家差距在哪?
研究员视角拆解三大壁垒:
壁垒一:Pre-training(科学问题,Scaling Law需要慢慢做,急不来)
壁垒二:数据质量(Moving Target,今天有用的数据明天就太简单了)
壁垒三:Evaluation(Superhuman能力怎么测?SWE-bench已经失效)
Anthropic数据飞轮的真正含义:不是直接用用户数据,而是从用户行为中提取North Star
Codex + GPT 5.4 vs Claude Opus:Opus是组里不说话的大神,Codex是最后抢功的TL
Google的护城河:人才密度、现金流、芯片到算法的垂直整合
四、Harness会消失吗?Agent的终局在哪?
三层模型:Foundation Model → Harness → Environment
Harness = 脚手架(context压缩、任务续接、to-do维护、early termination)
暴论:Harness是过渡产物,中间层会越来越薄,被两端吃掉
模型变强吸收上层,大厂API吸收下层(memory、compaction最终会被内置)
OpenClaw的两大洞察:无限Environment + Agent Identity(24/7持续存在的智能体,而非用完即弃的Ghost Intelligence)
五、创业者该怎么选方向?
第一步:用第一性原理预测未来3-6个月,不要用后验经验
第二步:想清楚不变的商业规律——Brand、Scale、Network Effect、Embedding
"When everything changes, nothing changes"
两个最看好的方向:Agent Environment(造路和桥)、Agent Identity(IAM第四层)
不要站在基座模型对立面:不做"模型不够好所以我来补"的生意
Build for a beautiful future model:假设模型更强更便宜时,你的产品是否依然有价值
不要有Producer Illusion:iPhone已经来了,别想着造iOS,去造App
---
🎤 主播与嘉宾
AI-Nate|硅谷AI工程师,18周打造18个AI Agent产品,AI课程导师
AI-Siky|斯坦福毕业,10年+硅谷经验,曾主导多家独角兽增长,现任顶级科技公司战略合作负责人
Warren Chen|前Google DeepMind资深研究员,Coding Agent方向,现创业中,LinkedIn链接:www.linkedin.com
---
🔗 相关资源
DeepSeek R1论文:deepseek.com
Remotion(用React写视频剪辑):remotion.dev
上期回顾(EP03):龙虾潮背后Skill经济的崛起-饥饿游戏或成现实!
EP02回顾:深度拆解Anthropic:一个物理系学生如何造出硅谷最危险的AI公司(小宇宙爆款)
---
⏱️ 时间戳
00:00 开场 & 嘉宾介绍:前Google DeepMind研究员Warren
00:43 英伟达GTC大会背景 & 本期主题
02:35 第一阶段:Pre-training + SFT + RLHF,大模型训练的经典三步
06:30 RLHF详解:人类打分的Reward Model是怎么工作的
08:48 RLHF的天花板:人类反馈永远无法训练出Superhuman
10:14 第二阶段:从RLHF到RLVF,数学领域的突破
13:00 两条分叉路径:Coding Reward + Chain-of-Thought
15:33 Chain-of-Thought:从prompt技巧到模型内生能力
18:00 Coding + CoT正交融合 → Coding Agent大爆发
19:33 第三阶段:Seed Not Teach,Mid-Training范式革命
22:00 DeepSeek R1案例:只教格式,不教内容
26:00 培养天才的方法论:不要用普通学生的套路
29:26 The Bitter Lesson的完美印证
31:30 研究员现在关注什么?更好的习题 + 更好的评估
33:00 Anthropic为什么能持续领先?数据飞轮的真正含义
39:00 把任何问题转化为Coding Problem = 吃到AI红利
43:00 实例:Remotion用React写视频剪辑
46:00 100% vs 1000%效率提升:用工具 vs 围绕工具建工作流
48:00 大模型竞争格局:各家在Coding上你追我赶
49:30 Coding不是目的,是通往Agent能力的最佳近似
50:50 为什么道理都懂却过不好?三大壁垒解析
51:00 壁垒一:Pre-training是科学+工程问题,急不来
55:00 壁垒二:数据质量是Moving Target
58:00 壁垒三:Evaluation——Superhuman能力怎么测?
59:00 SWE-bench的局限性 & IDE范式 vs Agent范式
1:01:00 Codex + GPT 5.4 vs Opus:哪个才是最强Coding模型?
1:04:30 OpenAI = Mid-Training纯粹派,Anthropic = SFT精修派
1:07:00 Harness是什么?Foundation Model → Harness → Environment
1:15:00 Harness实例:任务续接、Context压缩、To-do维护
1:18:00 暴论:Harness是过渡产物,中间层会消失
1:22:00 Environment才是终局:谁控制环境,谁控制Agent
1:24:00 OpenClaw的核心洞察:Environment + Agent Identity
1:26:00 IAM第四层:Agent不应该用人类的身份体系
1:28:00 产品应该给Agent用,不是给人用——Token消耗量10-100倍
1:30:00 创业两步走:第一性原理 + 不变的商业规律
1:33:00 "When everything changes, nothing changes"
1:36:00 不要站在基座模型的对立面
1:38:00 Build for a beautiful future model
1:42:00 快问快答:每天用什么AI工具?推荐论文?入行建议?
1:44:30 收尾 & 感谢
---
📮 联系我们
播客主页:ai-nate.com (附视频版地址)
播客邮箱:nathan@ai-nate.com
欢迎评论区留言交流,转发支持!
---
🎙️ 「硅谷观察局」亲友群开放啦!
听了这么多期,是不是有时候想跟我们聊几句?
💬 和Nathan、Siky直接交流讨论
🎯 告诉我们下期你想听什么话题
我们群里见!

---
🎁 听众福利
想亲手体验 Vibe Coding?Nathan 开设了一堂免费快闪课程——从零开始,用 Cursor + Claude Code 搭建你的第一个AI项目。不需要编程基础,跟着做就行。
