谷歌DeepMind研究员揭秘:Coding模型是怎么炼成的,模型上限在哪

谷歌DeepMind研究员揭秘:Coding模型是怎么炼成的,模型上限在哪

105分钟 ·
播放数3593
·
评论数27

🎙️ 硅谷洞察局 EP04 | 谷歌DeepMind研究员揭秘:Coding模型是怎么炼成的,模型上限在哪

一线洞察,深度思考。硅谷核心科技从业者,带你触摸AI变革深处。

---

📌 本期看点

英伟达GTC大会刚刚落幕,大模型在过去半年经历了一轮又一轮的迭代。本期节目,我们请到了前Google DeepMind资深研究员Warren Chen——一位在coding agent方向深耕多年、现已投身创业的一线技术人,和我们做了一场关于大模型训练范式演化的硬核技术对谈。

从Pre-training到RLHF,从Verifiable Feedback到Mid-Training,从Harness Engineering到Agent Environment——Warren用"看课本、做习题、考试"的类比,把大模型训练的三次范式跃迁讲得通透。如果你想理解为什么Coding Agent突然爆发、为什么Anthropic能持续领先、以及创业者该押注什么方向,这期不容错过。

---

📖 本期术语速查(听到不熟悉的词?翻这里)

Pre-training(预训练):让AI把互联网上海量文字都"看"一遍,相当于通读所有课本

SFT(监督微调):给AI做示范题,手把手告诉它"这道题应该这么答"

RLHF(人类反馈强化学习):请人类给AI的两个回答打分,AI学着挑人更喜欢的那个

RLVF(可验证反馈强化学习):不用人打分了,直接对答案。代码跑通就是对,没跑通就是错

Chain-of-Thought(思维链):让AI像人一样"先想一想再回答",而不是直接蹦出答案

Mid-Training(中间训练):只教AI答题的格式(怎么填答题卡),不教具体解法,让它自己悟

Reward Signal(奖励信号):告诉AI"你这次做对了还是做错了"的反馈

Harness(执行框架):AI模型和真实世界之间的脚手架,帮AI接住任务、管理记忆、处理出错

Environment(执行环境):AI能触达的所有工具和权限——邮箱、浏览器、代码编辑器、操作系统等

Scaling Law(规模定律):模型越大、数据越多、算力越强 → AI能力越强,这条规律目前仍然成立

Benchmark(基准测试):AI界的"高考模拟卷",用标准化测试对比各家模型的分数

Agent(智能体):不只是聊天的AI,而是能自主写代码、发邮件、操作软件、完成复杂任务的AI

Superhuman(超越人类):AI在某个领域的表现超过了最优秀的人类专家

---

🗂️ 内容大纲

一、大模型训练的三次范式跃迁

第一阶段:人类当老师(2022-2023)

三步流程:先通读课本(Pre-training),再做随堂练习(SFT),最后请人类老师批改作文、打分(RLHF)

ChatGPT为什么让人惊艳?两件事做对了:你说什么它能照做(Instruction Following),而且说话方式让你觉得舒服

瓶颈在哪?人类老师再厉害也是人。用人打分训练出的AI,天花板就是人类水平本身

第二阶段:机器自己出题考自己(2023-2024)

核心变化:把"请人打分"换成"直接对答案"。数学题算出86.736就是86.736,代码跑通就是跑通,不需要人来判断

为什么数学和Coding最先突破?因为它们天然满足三个条件:答案可以验证、不能靠猜、过程必须正确才能得出正确结果

Chain-of-Thought(思维链)从一个prompt技巧,变成了模型自己会做的事。以前你得在提示词里写"请一步步思考",现在模型自己就会先想再答

Coding能力 + 思维链能力同时提升,互不干扰 → 这就是去年Coding Agent突然爆发的技术根源

第三阶段:只教姿势,不教答案(2024至今)

以DeepSeek R1为代表的新范式:SFT阶段不再教AI怎么解题,只教它"把答案写在花括号里"这种格式要求。类比:只教天才怎么填答题卡,不告诉他选A还是选B

为什么?因为人类的解题思路反而会成为天才的负担。你教他高中数学的做法,他可能用微积分一步就解出来了

真正的学习全部发生在RL阶段:AI自己做题、自己验证、自己进化。人类只提供题目和判分规则

这是AI第一次真正有可能超越所有人类专家。The Bitter Lesson(苦涩的教训)的完美印证:少干预,多放手,让算力和数据自己说话

二、Coding为什么是通往AGI的钥匙?

Coding不是目的,是Agent能力的最佳近似(best proxy)

你不能直接训练Agent,但可以通过Coding训练Agent能力

把任何问题转化为Coding Problem = 吃到未来两年AI红利

视频剪辑(Remotion)、UI设计(Pencil)、数据分析都可以被Coding表达

100%效率提升 → 用工具;1000%效率提升 → 围绕工具重构工作流

三、为什么Anthropic一直领先?各家差距在哪?

研究员视角拆解三大壁垒:

壁垒一:Pre-training(科学问题,Scaling Law需要慢慢做,急不来)

壁垒二:数据质量(Moving Target,今天有用的数据明天就太简单了)

壁垒三:Evaluation(Superhuman能力怎么测?SWE-bench已经失效)

Anthropic数据飞轮的真正含义:不是直接用用户数据,而是从用户行为中提取North Star

Codex + GPT 5.4 vs Claude Opus:Opus是组里不说话的大神,Codex是最后抢功的TL

Google的护城河:人才密度、现金流、芯片到算法的垂直整合

四、Harness会消失吗?Agent的终局在哪?

三层模型:Foundation Model → Harness → Environment

Harness = 脚手架(context压缩、任务续接、to-do维护、early termination)

暴论:Harness是过渡产物,中间层会越来越薄,被两端吃掉

模型变强吸收上层,大厂API吸收下层(memory、compaction最终会被内置)

OpenClaw的两大洞察:无限Environment + Agent Identity(24/7持续存在的智能体,而非用完即弃的Ghost Intelligence)

五、创业者该怎么选方向?

第一步:用第一性原理预测未来3-6个月,不要用后验经验

第二步:想清楚不变的商业规律——Brand、Scale、Network Effect、Embedding

"When everything changes, nothing changes"

两个最看好的方向:Agent Environment(造路和桥)、Agent Identity(IAM第四层)

不要站在基座模型对立面:不做"模型不够好所以我来补"的生意

Build for a beautiful future model:假设模型更强更便宜时,你的产品是否依然有价值

不要有Producer Illusion:iPhone已经来了,别想着造iOS,去造App

---

🎤 主播与嘉宾

AI-Nate|硅谷AI工程师,18周打造18个AI Agent产品,AI课程导师

AI-Siky|斯坦福毕业,10年+硅谷经验,曾主导多家独角兽增长,现任顶级科技公司战略合作负责人

Warren Chen|前Google DeepMind资深研究员,Coding Agent方向,现创业中,LinkedIn链接:www.linkedin.com

---

🔗 相关资源

DeepSeek R1论文:deepseek.com

Remotion(用React写视频剪辑):remotion.dev

上期回顾(EP03):龙虾潮背后Skill经济的崛起-饥饿游戏或成现实!

EP02回顾:深度拆解Anthropic:一个物理系学生如何造出硅谷最危险的AI公司(小宇宙爆款)

---

⏱️ 时间戳

00:00 开场 & 嘉宾介绍:前Google DeepMind研究员Warren

00:43 英伟达GTC大会背景 & 本期主题

02:35 第一阶段:Pre-training + SFT + RLHF,大模型训练的经典三步

06:30 RLHF详解:人类打分的Reward Model是怎么工作的

08:48 RLHF的天花板:人类反馈永远无法训练出Superhuman

10:14 第二阶段:从RLHF到RLVF,数学领域的突破

13:00 两条分叉路径:Coding Reward + Chain-of-Thought

15:33 Chain-of-Thought:从prompt技巧到模型内生能力

18:00 Coding + CoT正交融合 → Coding Agent大爆发

19:33 第三阶段:Seed Not Teach,Mid-Training范式革命

22:00 DeepSeek R1案例:只教格式,不教内容

26:00 培养天才的方法论:不要用普通学生的套路

29:26 The Bitter Lesson的完美印证

31:30 研究员现在关注什么?更好的习题 + 更好的评估

33:00 Anthropic为什么能持续领先?数据飞轮的真正含义

39:00 把任何问题转化为Coding Problem = 吃到AI红利

43:00 实例:Remotion用React写视频剪辑

46:00 100% vs 1000%效率提升:用工具 vs 围绕工具建工作流

48:00 大模型竞争格局:各家在Coding上你追我赶

49:30 Coding不是目的,是通往Agent能力的最佳近似

50:50 为什么道理都懂却过不好?三大壁垒解析

51:00 壁垒一:Pre-training是科学+工程问题,急不来

55:00 壁垒二:数据质量是Moving Target

58:00 壁垒三:Evaluation——Superhuman能力怎么测?

59:00 SWE-bench的局限性 & IDE范式 vs Agent范式

1:01:00 Codex + GPT 5.4 vs Opus:哪个才是最强Coding模型?

1:04:30 OpenAI = Mid-Training纯粹派,Anthropic = SFT精修派

1:07:00 Harness是什么?Foundation Model → Harness → Environment

1:15:00 Harness实例:任务续接、Context压缩、To-do维护

1:18:00 暴论:Harness是过渡产物,中间层会消失

1:22:00 Environment才是终局:谁控制环境,谁控制Agent

1:24:00 OpenClaw的核心洞察:Environment + Agent Identity

1:26:00 IAM第四层:Agent不应该用人类的身份体系

1:28:00 产品应该给Agent用,不是给人用——Token消耗量10-100倍

1:30:00 创业两步走:第一性原理 + 不变的商业规律

1:33:00 "When everything changes, nothing changes"

1:36:00 不要站在基座模型的对立面

1:38:00 Build for a beautiful future model

1:42:00 快问快答:每天用什么AI工具?推荐论文?入行建议?

1:44:30 收尾 & 感谢

---

📮 联系我们

播客主页:ai-nate.com (附视频版地址)

播客邮箱:nathan@ai-nate.com

欢迎评论区留言交流,转发支持!

---

🎙️ 「硅谷观察局」亲友群开放啦!

听了这么多期,是不是有时候想跟我们聊几句?

💬 和Nathan、Siky直接交流讨论

🎯 告诉我们下期你想听什么话题

我们群里见!

---

🎁 听众福利

想亲手体验 Vibe Coding?Nathan 开设了一堂免费快闪课程——从零开始,用 Cursor + Claude Code 搭建你的第一个AI项目。不需要编程基础,跟着做就行。

👉 免费报名:Agentic Coding Zero-to-Shipped

展开Show Notes
lr_JQYW
lr_JQYW
2026.3.21
Warren真是想得非常透彻的金句大师!唯一遗憾是收音质量没有很完美
AI-Nate
:
Warren确实金句频频,沉淀得深,才有这个维度的理解。 收音确实有些问题,我们已经更换了设备。🙏
AI-Nate
:
利用我们的剪辑Agent再次修复了一下音频,你看看是不是会好一些。之前有卡顿的地方应该会有好转。
5条回复
AI-Nate
AI-Nate
2026.3.21
花絮分享:在我们这次现场录制的时候,还有顶级投资人朋友亲临现场旁听,也算是我们第一次有观众的录制。最后的掌声就是这位朋友给到我们的,谢谢他百忙之中的支持!
粒莎
粒莎
1 天前
感觉可以用剪影的音频工具再处理下试试,音频-人声美化(去混响)
AI-Nate
:
有朋友推荐了Adobe,可以试一试。之前已经用AI Agent优化过了。
MagicLiz
MagicLiz
2天前
建议把字幕校对一下,对AI小白的听众更友好。自动字幕里很多英文不对,导致去搜索也搜不到,带来了理解难度
AI-Nate
:
谢谢建议!我们下次也在Show Note里把英文的部分都补全。
AI-Nate
:
您这收听时长有点猛啊!佩服!我见过最高的了。
AI-Nate
AI-Nate
2026.3.21
花絮分享:在我们发现音频录制时,因为多个麦克风加上空间回响,使得录制的音频带有回声,甚至在转码后产生卡顿现象。使得我们不得不在网上找到一些现成的软件解决方案,搜索了几个感觉效果不是那么明显,而且价格还很怪。于是,我们索性把问题都给了我们自己的剪辑Agent(基于coding agent所开发),看看它是否有什么办法。没想到剪辑Agent直接调用了几个语音修复的库,没一会就帮我们降噪去回声,音频效果比之前好了许多。

分享这个花絮是想应证节目中所讨论的两点:
1. 生活工作的大部分场景都可以被转化为code,coding agent必将发挥巨大的作用;
2. 类似提供服务的SAAS软件,甚至是个人软件供应商,都将被coding agent拍死在沙滩上;

个人的启示:vibe coding赶快学起来!
别处理
别处理
3小时前
麦克风有点差了,太影响收听了
AI-Nate
:
收到,我们新设备已经到了,下期会有改进的。谢谢收听!
MikeLLL
MikeLLL
6小时前
嘉宾真的好厉害!讲的很清晰。就是音质有点差经常听不清
AI-Nate
:
谢谢收听!真爱粉一枚!
釔帆
釔帆
2天前
可听性真的好差,完全听不清
AI-Nate
:
我们同样也是感到遗憾,这么优质的对谈,因为设备原因没有完全交出令人满意的作品。我们也是做了反省和设备上的提升。本来只想搭个草台班子,哪知道何德何能得到了大家的关注和喜爱。我们得鞭策自己一下了。😂
内容很好 但是收声真的不好 很跳戏 需要用力听 但还是用力听完了整场
AI-Nate
:
真爱粉认证!这期确实收声有问题,我们已经改进设备,希望之后能给大家带来优质内容的同时,增强声音质量!🙏
厉害👍🏻感谢辛苦了!
AI-Nate
:
谢谢支持!
Kada
Kada
4天前
声音不清楚,回声重,听起来体验不太好。
AI-Nate
:
这期收声确实存在问题,我们已经更新了设备,正在运输路上。见谅!🙏
HD79101x
HD79101x
2026.3.23
爱听,作为上班的路上的陪伴受益匪浅,如果节目的收音效果再好些,就更好了,本期节目在其他平台有视频可以看吗?
AI-Nate
:
这是我们的播客主页:https://ai-nate.com/podcast/ 上面有YouTube和B站的频道链接。视频版都会放在上面,可以持续关注!