#552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

📝 本期播客简介

本期我们克隆了：科技深度访谈播客《The MAD Podcast with Matt Turck》OpenAI's Yann Dubois: Why AI Progress Suddenly Feels Real

本期嘉宾 Yann Dubois 是 OpenAI PostTraining Frontiers 团队的共同负责人，参与过 GPT 5.5、o3、GPT5 Thinking 等前沿模型的打造。在这期对话中，Yann 从 OpenAI 内部研究者的视角，解释了为什么最近几个月 AI 能力突然让人感觉“真正可用”了：并不是能力凭空跳跃，而是模型可靠性终于跨过了一个关键阈值。

节目深入拆解了 GPT 5.5 的进展、reasoning 模型的演化、强化学习如何从数学和编程竞赛走向真实世界任务，以及 pretraining、mid training、posttraining 各自扮演的角色。Yann 还讨论了为什么评估模型越来越难，model as a judge 为什么重要，continual learning 为什么仍是未解难题，以及创业公司在“最后一公里”仍然拥有巨大空间。

这是一集非常适合 AI 从业者、创业者、投资人和技术产品经理收听的前沿对话：它不仅解释了大模型能力如何被训练出来，也回答了一个更现实的问题——当模型越来越强，应用层和垂直领域还剩下什么机会。

👤 本期嘉宾

Yann Dubois，OpenAI PostTraining Frontiers 团队共同负责人。他参与打造了 GPT 5.5、o3 和 GPT5 Thinking 等前沿模型。在加入 OpenAI 之前，他曾在斯坦福参与 Stanford Alpaca 项目，该项目对现代 posttraining 与开源指令微调研究产生了重要影响。Yann 的研究经历横跨自然语言处理、低资源语言、多模态表示学习、强化学习与前沿大模型训练。

⏱️ 时间戳

00:00 开场 & 播客简介

AI 进展为何突然“体感变强”

02:15 MAD Podcast 开场：Yann Dubois 与 GPT 5.5 的背景

03:25 最近几个月发生了什么：可靠性跨过关键阈值

05:56 什么叫模型可靠性：Agent 运行越久，错误概率越需要下降

07:10 GPT 5.5 发布背后：全公司协同与情绪起伏

08:45 GPT 5.5 的优势：agentic coding、computer use 与知识工作

10:47 效率优化：从 token 数到 latency，再到用户真正感受到的性能

PostTraining Frontiers 与 Yann 的研究路径

11:52 OpenAI PostTraining Frontiers 团队到底做什么

13:13 从 word2vec 到低资源语言 NLP：Yann 如何进入 AI 领域

14:41 为什么拒绝量化基金：技术工作与正向影响

15:21 GPT5 发布演示：现场搭建法语学习 App 的紧张时刻

Reasoning 从竞赛题走向真实世界

15:49 2026 年的 reasoning 与 o1/o3 时代有什么不同

17:12 从可验证 reward 到真实用户价值

18:07 5.5 Thinking 与 5.5 Pro：更多 test-time compute 是否值得

19:37 效率与思考时间：把性能-延迟曲线向左移动

20:45 模型如何更会推理：像专家一样少走弯路，也更早发现错误

训练流水线：Pretraining、Mid Training 与 Posttraining

21:49 Pretraining 是否撞墙：为什么更大模型仍然有效

24:43 数据前沿：synthetic data、multimodal data 与 embodied AI

26:45 World Models：模拟有用，但不能过度优化不真实目标

28:02 Mid Training 是什么：给高质量数据更高权重

29:28 Posttraining 的本质：把“懂知识的模型”变成“对人有用的模型”

强化学习如何塑造前沿模型

30:39 SFT 与 RL 的区别：从模仿人类到优化 reward

33:28 RL 会创造新能力吗：推理、检查答案与更长思考

35:00 为什么 RL 难扩展：昂贵采样、长 rollout 与 attribution 难题

37:32 GRPO 与简单方法的胜利：能随 compute 扩展的技术最有生命力

38:13 AI 系统是“建造”还是“种出来”：从手艺到科学的研究过程

40:26 为什么大家先从 posttraining 改起：迭代速度更快

41:57 垂直能力与横向能力：模型为什么有时参差不齐

43:21 从数学、代码走向经济领域：主动选择优先级与数据收集

44:43 泛化的边界：竞赛聪明不等于真实世界聪明

47:31 幻觉问题：为什么 SFT 可能反而奖励幻觉

49:00 Negative Transfer：显式指令遵循与隐式意图理解的冲突

50:36 法律、医疗、金融也能追上 coding 吗：关键在领域专家与 reward 可验证性

评估、模型裁判与能力飞轮

52:23 为什么 evals 越来越难：任务开放、答案多样、专家稀缺

54:35 Model as a Judge：为什么让模型评估模型会越来越重要

55:20 评估与训练的边界消失：每个 eval 都可能变成训练数据生成器

未来 12-24 个月：连续进步与局部断点

56:07 未来 AI 进展会是连续还是断点式

57:26 Continual Learning：为什么模型应该越用越懂你

59:16 为什么 continual learning 还没真正解决

59:59 Harness 会被模型吃掉吗：通用框架与垂直场景的不同命运

01:01:58 应用层还有机会吗：真正的护城河在最后一公里

01:03:36 结尾：Matt 感谢 Yann，节目收尾

🌟 精彩内容

💡 AI 进展不是突然发生，而是可靠性跨过了阈值

Yann 认为，模型能力本身大多是连续进步的，但用户感知并不是线性的。当模型每隔几分钟出错的概率足够低，AI 工具就会从“有趣但不可靠”，变成“真的能承担工作”。这也是为什么最近 coding 和 agentic work 的体验像突然跃迁。

“你需要达到这样的可靠性水平，才能真正让这些 AI 工具有用起来。”

🧠 Reasoning 的关键转变：从竞赛题到真实世界

早期 reasoning 模型主要优化数学和编程竞赛，因为这些任务有明确答案，reward 容易验证。现在，OpenAI 正在把这些强化学习工具迁移到更混乱、更开放的真实世界任务中，例如软件工程、知识工作、企业流程和复杂数据处理。

“所以我们从竞赛场景，走到了真正对用户有用的场景，这就是我们现在正在感受到的变化。”

⚙️ GPT 5.5 的效率：不只是更聪明，也要更快

Yann 特别强调 GPT 5.5 的效率提升。效率不是单纯减少 token，也不是单纯降低延迟，而是要在用户真正关心的坐标系里优化：用更少等待时间获得更高质量答案。AI research 负责让模型用更少 token 达到同等性能，engineering 和 inference 团队则负责把这些 token 更快地服务出来。

“最后大家真正关心的是，X 轴是 latency，Y 轴是性能。”

📚 Posttraining 的本质：让模型从“图书馆”变成“专家”

Yann 用一个很清晰的比喻解释 posttraining：pretraining 像是让模型读完整座图书馆，掌握世界上的大量知识；但用户真正需要的不是图书馆，而是一位读过这些书、能理解问题并给出帮助的专家。Posttraining 的目标，就是把知识转化为可交互、可执行、对人有用的能力。

“它的核心，就是把一个了解世界上各种知识的东西，变成一个对人有用的东西。”

🧪 强化学习为什么难：你往往只在最后才知道对错

在 Agent 任务里，模型可能经历很长的操作流程，最后才知道结果是否正确。这会带来 attribution 难题：到底是哪一步导致成功或失败？这也是 RL 在复杂真实世界任务中难以扩展的重要原因之一。不过 Yann 认为，当基础模型已经足够了解世界，RL 的效果会显著变好。

“你只有到最后才知道哪一部分好、哪一部分不好。”

👻 幻觉可能来自 SFT，而 RL 有机会压低它

Yann 提到 John Schulman 的观点：如果一个模型本来不知道某件事，但 SFT 的标准答案要求它说出那件事，训练过程可能会迫使模型学会“编造”。而在 RL 中，如果模型不知道某事，它几乎不可能随机采样出正确答案，因此正确的 RL 流程更可能压掉这种不知道却乱答的行为。

“SFT 会迫使模型产生幻觉。”

📏 Evals 是模型进步的关键瓶颈

随着模型任务越来越开放，评估变得越来越难。以前只需要判断代码里有没有 bug，现在可能要判断一个完整网站做得好不好，而“好”的答案有很多种。Yann 认为，发现问题、构建评估、量化改进，至少和训练模型一样重要，甚至可能更重要。

“发现问题，并且确保我们能量化改进，至少同样重要，甚至可能更重要。”

🔁 Continual Learning 仍是巨大未解难题

Yann 对 continual learning 非常兴奋。他认为今天的模型在进入一家公司的第一天可能比新员工更有用，但它们不会像人一样随着时间积累内部知识、理解工作习惯、持续变强。真正理想的 AI 应该是在环境中工作越久，对用户越有用。

“让模型在某个环境里工作得越久，就变得越有用。”

🚀 创业机会仍在最后一公里

对于应用层和创业公司，Yann 给出了非常明确的判断：模型的原始智能不一定是最终护城河，真正的护城河往往在最后一公里，包括权限、数据连接、工作流、领域知识和用户场景理解。OpenAI 会更专注通用能力，而垂直领域仍然有大量空间。

“我觉得大多数时候，真正的护城河在最后一公里。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight