📝 本期播客简介
本期我们克隆了:科技深度访谈播客《The MAD Podcast with Matt Turck》OpenAI's Yann Dubois: Why AI Progress Suddenly Feels Real
本期嘉宾 Yann Dubois 是 OpenAI PostTraining Frontiers 团队的共同负责人,参与过 GPT 5.5、o3、GPT5 Thinking 等前沿模型的打造。在这期对话中,Yann 从 OpenAI 内部研究者的视角,解释了为什么最近几个月 AI 能力突然让人感觉“真正可用”了:并不是能力凭空跳跃,而是模型可靠性终于跨过了一个关键阈值。
节目深入拆解了 GPT 5.5 的进展、reasoning 模型的演化、强化学习如何从数学和编程竞赛走向真实世界任务,以及 pretraining、mid training、posttraining 各自扮演的角色。Yann 还讨论了为什么评估模型越来越难,model as a judge 为什么重要,continual learning 为什么仍是未解难题,以及创业公司在“最后一公里”仍然拥有巨大空间。
这是一集非常适合 AI 从业者、创业者、投资人和技术产品经理收听的前沿对话:它不仅解释了大模型能力如何被训练出来,也回答了一个更现实的问题——当模型越来越强,应用层和垂直领域还剩下什么机会。
👤 本期嘉宾
Yann Dubois,OpenAI PostTraining Frontiers 团队共同负责人。他参与打造了 GPT 5.5、o3 和 GPT5 Thinking 等前沿模型。在加入 OpenAI 之前,他曾在斯坦福参与 Stanford Alpaca 项目,该项目对现代 posttraining 与开源指令微调研究产生了重要影响。Yann 的研究经历横跨自然语言处理、低资源语言、多模态表示学习、强化学习与前沿大模型训练。
⏱️ 时间戳
开场 & 播客简介
AI 进展为何突然“体感变强”
MAD Podcast 开场:Yann Dubois 与 GPT 5.5 的背景
最近几个月发生了什么:可靠性跨过关键阈值
什么叫模型可靠性:Agent 运行越久,错误概率越需要下降
GPT 5.5 发布背后:全公司协同与情绪起伏
GPT 5.5 的优势:agentic coding、computer use 与知识工作
效率优化:从 token 数到 latency,再到用户真正感受到的性能
PostTraining Frontiers 与 Yann 的研究路径
OpenAI PostTraining Frontiers 团队到底做什么
从 word2vec 到低资源语言 NLP:Yann 如何进入 AI 领域
为什么拒绝量化基金:技术工作与正向影响
GPT5 发布演示:现场搭建法语学习 App 的紧张时刻
Reasoning 从竞赛题走向真实世界
2026 年的 reasoning 与 o1/o3 时代有什么不同
从可验证 reward 到真实用户价值
5.5 Thinking 与 5.5 Pro:更多 test-time compute 是否值得
效率与思考时间:把性能-延迟曲线向左移动
模型如何更会推理:像专家一样少走弯路,也更早发现错误
训练流水线:Pretraining、Mid Training 与 Posttraining
Pretraining 是否撞墙:为什么更大模型仍然有效
数据前沿:synthetic data、multimodal data 与 embodied AI
World Models:模拟有用,但不能过度优化不真实目标
Mid Training 是什么:给高质量数据更高权重
Posttraining 的本质:把“懂知识的模型”变成“对人有用的模型”
强化学习如何塑造前沿模型
SFT 与 RL 的区别:从模仿人类到优化 reward
RL 会创造新能力吗:推理、检查答案与更长思考
为什么 RL 难扩展:昂贵采样、长 rollout 与 attribution 难题
GRPO 与简单方法的胜利:能随 compute 扩展的技术最有生命力
AI 系统是“建造”还是“种出来”:从手艺到科学的研究过程
为什么大家先从 posttraining 改起:迭代速度更快
垂直能力与横向能力:模型为什么有时参差不齐
从数学、代码走向经济领域:主动选择优先级与数据收集
泛化的边界:竞赛聪明不等于真实世界聪明
幻觉问题:为什么 SFT 可能反而奖励幻觉
Negative Transfer:显式指令遵循与隐式意图理解的冲突
法律、医疗、金融也能追上 coding 吗:关键在领域专家与 reward 可验证性
评估、模型裁判与能力飞轮
为什么 evals 越来越难:任务开放、答案多样、专家稀缺
Model as a Judge:为什么让模型评估模型会越来越重要
评估与训练的边界消失:每个 eval 都可能变成训练数据生成器
未来 12-24 个月:连续进步与局部断点
未来 AI 进展会是连续还是断点式
Continual Learning:为什么模型应该越用越懂你
为什么 continual learning 还没真正解决
Harness 会被模型吃掉吗:通用框架与垂直场景的不同命运
应用层还有机会吗:真正的护城河在最后一公里
结尾:Matt 感谢 Yann,节目收尾
🌟 精彩内容
💡 AI 进展不是突然发生,而是可靠性跨过了阈值
Yann 认为,模型能力本身大多是连续进步的,但用户感知并不是线性的。当模型每隔几分钟出错的概率足够低,AI 工具就会从“有趣但不可靠”,变成“真的能承担工作”。这也是为什么最近 coding 和 agentic work 的体验像突然跃迁。
“你需要达到这样的可靠性水平,才能真正让这些 AI 工具有用起来。”
🧠 Reasoning 的关键转变:从竞赛题到真实世界
早期 reasoning 模型主要优化数学和编程竞赛,因为这些任务有明确答案,reward 容易验证。现在,OpenAI 正在把这些强化学习工具迁移到更混乱、更开放的真实世界任务中,例如软件工程、知识工作、企业流程和复杂数据处理。
“所以我们从竞赛场景,走到了真正对用户有用的场景,这就是我们现在正在感受到的变化。”
⚙️ GPT 5.5 的效率:不只是更聪明,也要更快
Yann 特别强调 GPT 5.5 的效率提升。效率不是单纯减少 token,也不是单纯降低延迟,而是要在用户真正关心的坐标系里优化:用更少等待时间获得更高质量答案。AI research 负责让模型用更少 token 达到同等性能,engineering 和 inference 团队则负责把这些 token 更快地服务出来。
“最后大家真正关心的是,X 轴是 latency,Y 轴是性能。”
📚 Posttraining 的本质:让模型从“图书馆”变成“专家”
Yann 用一个很清晰的比喻解释 posttraining:pretraining 像是让模型读完整座图书馆,掌握世界上的大量知识;但用户真正需要的不是图书馆,而是一位读过这些书、能理解问题并给出帮助的专家。Posttraining 的目标,就是把知识转化为可交互、可执行、对人有用的能力。
“它的核心,就是把一个了解世界上各种知识的东西,变成一个对人有用的东西。”
🧪 强化学习为什么难:你往往只在最后才知道对错
在 Agent 任务里,模型可能经历很长的操作流程,最后才知道结果是否正确。这会带来 attribution 难题:到底是哪一步导致成功或失败?这也是 RL 在复杂真实世界任务中难以扩展的重要原因之一。不过 Yann 认为,当基础模型已经足够了解世界,RL 的效果会显著变好。
“你只有到最后才知道哪一部分好、哪一部分不好。”
👻 幻觉可能来自 SFT,而 RL 有机会压低它
Yann 提到 John Schulman 的观点:如果一个模型本来不知道某件事,但 SFT 的标准答案要求它说出那件事,训练过程可能会迫使模型学会“编造”。而在 RL 中,如果模型不知道某事,它几乎不可能随机采样出正确答案,因此正确的 RL 流程更可能压掉这种不知道却乱答的行为。
“SFT 会迫使模型产生幻觉。”
📏 Evals 是模型进步的关键瓶颈
随着模型任务越来越开放,评估变得越来越难。以前只需要判断代码里有没有 bug,现在可能要判断一个完整网站做得好不好,而“好”的答案有很多种。Yann 认为,发现问题、构建评估、量化改进,至少和训练模型一样重要,甚至可能更重要。
“发现问题,并且确保我们能量化改进,至少同样重要,甚至可能更重要。”
🔁 Continual Learning 仍是巨大未解难题
Yann 对 continual learning 非常兴奋。他认为今天的模型在进入一家公司的第一天可能比新员工更有用,但它们不会像人一样随着时间积累内部知识、理解工作习惯、持续变强。真正理想的 AI 应该是在环境中工作越久,对用户越有用。
“让模型在某个环境里工作得越久,就变得越有用。”
🚀 创业机会仍在最后一公里
对于应用层和创业公司,Yann 给出了非常明确的判断:模型的原始智能不一定是最终护城河,真正的护城河往往在最后一公里,包括权限、数据连接、工作流、领域知识和用户场景理解。OpenAI 会更专注通用能力,而垂直领域仍然有大量空间。
“我觉得大多数时候,真正的护城河在最后一公里。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
