#552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里

#552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里

64分钟 ·
播放数386
·
评论数0

📝 本期播客简介

本期我们克隆了:科技深度访谈播客《The MAD Podcast with Matt Turck》OpenAI's Yann Dubois: Why AI Progress Suddenly Feels Real

本期嘉宾 Yann Dubois 是 OpenAI PostTraining Frontiers 团队的共同负责人,参与过 GPT 5.5、o3、GPT5 Thinking 等前沿模型的打造。在这期对话中,Yann 从 OpenAI 内部研究者的视角,解释了为什么最近几个月 AI 能力突然让人感觉“真正可用”了:并不是能力凭空跳跃,而是模型可靠性终于跨过了一个关键阈值。

节目深入拆解了 GPT 5.5 的进展、reasoning 模型的演化、强化学习如何从数学和编程竞赛走向真实世界任务,以及 pretraining、mid training、posttraining 各自扮演的角色。Yann 还讨论了为什么评估模型越来越难,model as a judge 为什么重要,continual learning 为什么仍是未解难题,以及创业公司在“最后一公里”仍然拥有巨大空间。

这是一集非常适合 AI 从业者、创业者、投资人和技术产品经理收听的前沿对话:它不仅解释了大模型能力如何被训练出来,也回答了一个更现实的问题——当模型越来越强,应用层和垂直领域还剩下什么机会。

👤 本期嘉宾

Yann Dubois,OpenAI PostTraining Frontiers 团队共同负责人。他参与打造了 GPT 5.5、o3 和 GPT5 Thinking 等前沿模型。在加入 OpenAI 之前,他曾在斯坦福参与 Stanford Alpaca 项目,该项目对现代 posttraining 与开源指令微调研究产生了重要影响。Yann 的研究经历横跨自然语言处理、低资源语言、多模态表示学习、强化学习与前沿大模型训练。

⏱️ 时间戳

00:00 开场 & 播客简介

AI 进展为何突然“体感变强”

02:15 MAD Podcast 开场:Yann Dubois 与 GPT 5.5 的背景

03:25 最近几个月发生了什么:可靠性跨过关键阈值

05:56 什么叫模型可靠性:Agent 运行越久,错误概率越需要下降

07:10 GPT 5.5 发布背后:全公司协同与情绪起伏

08:45 GPT 5.5 的优势:agentic coding、computer use 与知识工作

10:47 效率优化:从 token 数到 latency,再到用户真正感受到的性能

PostTraining Frontiers 与 Yann 的研究路径

11:52 OpenAI PostTraining Frontiers 团队到底做什么

13:13 从 word2vec 到低资源语言 NLP:Yann 如何进入 AI 领域

14:41 为什么拒绝量化基金:技术工作与正向影响

15:21 GPT5 发布演示:现场搭建法语学习 App 的紧张时刻

Reasoning 从竞赛题走向真实世界

15:49 2026 年的 reasoning 与 o1/o3 时代有什么不同

17:12 从可验证 reward 到真实用户价值

18:07 5.5 Thinking 与 5.5 Pro:更多 test-time compute 是否值得

19:37 效率与思考时间:把性能-延迟曲线向左移动

20:45 模型如何更会推理:像专家一样少走弯路,也更早发现错误

训练流水线:Pretraining、Mid Training 与 Posttraining

21:49 Pretraining 是否撞墙:为什么更大模型仍然有效

24:43 数据前沿:synthetic data、multimodal data 与 embodied AI

26:45 World Models:模拟有用,但不能过度优化不真实目标

28:02 Mid Training 是什么:给高质量数据更高权重

29:28 Posttraining 的本质:把“懂知识的模型”变成“对人有用的模型”

强化学习如何塑造前沿模型

30:39 SFT 与 RL 的区别:从模仿人类到优化 reward

33:28 RL 会创造新能力吗:推理、检查答案与更长思考

35:00 为什么 RL 难扩展:昂贵采样、长 rollout 与 attribution 难题

37:32 GRPO 与简单方法的胜利:能随 compute 扩展的技术最有生命力

38:13 AI 系统是“建造”还是“种出来”:从手艺到科学的研究过程

40:26 为什么大家先从 posttraining 改起:迭代速度更快

41:57 垂直能力与横向能力:模型为什么有时参差不齐

43:21 从数学、代码走向经济领域:主动选择优先级与数据收集

44:43 泛化的边界:竞赛聪明不等于真实世界聪明

47:31 幻觉问题:为什么 SFT 可能反而奖励幻觉

49:00 Negative Transfer:显式指令遵循与隐式意图理解的冲突

50:36 法律、医疗、金融也能追上 coding 吗:关键在领域专家与 reward 可验证性

评估、模型裁判与能力飞轮

52:23 为什么 evals 越来越难:任务开放、答案多样、专家稀缺

54:35 Model as a Judge:为什么让模型评估模型会越来越重要

55:20 评估与训练的边界消失:每个 eval 都可能变成训练数据生成器

未来 12-24 个月:连续进步与局部断点

56:07 未来 AI 进展会是连续还是断点式

57:26 Continual Learning:为什么模型应该越用越懂你

59:16 为什么 continual learning 还没真正解决

59:59 Harness 会被模型吃掉吗:通用框架与垂直场景的不同命运

01:01:58 应用层还有机会吗:真正的护城河在最后一公里

01:03:36 结尾:Matt 感谢 Yann,节目收尾

🌟 精彩内容

💡 AI 进展不是突然发生,而是可靠性跨过了阈值

Yann 认为,模型能力本身大多是连续进步的,但用户感知并不是线性的。当模型每隔几分钟出错的概率足够低,AI 工具就会从“有趣但不可靠”,变成“真的能承担工作”。这也是为什么最近 coding 和 agentic work 的体验像突然跃迁。

“你需要达到这样的可靠性水平,才能真正让这些 AI 工具有用起来。”

🧠 Reasoning 的关键转变:从竞赛题到真实世界

早期 reasoning 模型主要优化数学和编程竞赛,因为这些任务有明确答案,reward 容易验证。现在,OpenAI 正在把这些强化学习工具迁移到更混乱、更开放的真实世界任务中,例如软件工程、知识工作、企业流程和复杂数据处理。

“所以我们从竞赛场景,走到了真正对用户有用的场景,这就是我们现在正在感受到的变化。”

⚙️ GPT 5.5 的效率:不只是更聪明,也要更快

Yann 特别强调 GPT 5.5 的效率提升。效率不是单纯减少 token,也不是单纯降低延迟,而是要在用户真正关心的坐标系里优化:用更少等待时间获得更高质量答案。AI research 负责让模型用更少 token 达到同等性能,engineering 和 inference 团队则负责把这些 token 更快地服务出来。

“最后大家真正关心的是,X 轴是 latency,Y 轴是性能。”

📚 Posttraining 的本质:让模型从“图书馆”变成“专家”

Yann 用一个很清晰的比喻解释 posttraining:pretraining 像是让模型读完整座图书馆,掌握世界上的大量知识;但用户真正需要的不是图书馆,而是一位读过这些书、能理解问题并给出帮助的专家。Posttraining 的目标,就是把知识转化为可交互、可执行、对人有用的能力。

“它的核心,就是把一个了解世界上各种知识的东西,变成一个对人有用的东西。”

🧪 强化学习为什么难:你往往只在最后才知道对错

在 Agent 任务里,模型可能经历很长的操作流程,最后才知道结果是否正确。这会带来 attribution 难题:到底是哪一步导致成功或失败?这也是 RL 在复杂真实世界任务中难以扩展的重要原因之一。不过 Yann 认为,当基础模型已经足够了解世界,RL 的效果会显著变好。

“你只有到最后才知道哪一部分好、哪一部分不好。”

👻 幻觉可能来自 SFT,而 RL 有机会压低它

Yann 提到 John Schulman 的观点:如果一个模型本来不知道某件事,但 SFT 的标准答案要求它说出那件事,训练过程可能会迫使模型学会“编造”。而在 RL 中,如果模型不知道某事,它几乎不可能随机采样出正确答案,因此正确的 RL 流程更可能压掉这种不知道却乱答的行为。

“SFT 会迫使模型产生幻觉。”

📏 Evals 是模型进步的关键瓶颈

随着模型任务越来越开放,评估变得越来越难。以前只需要判断代码里有没有 bug,现在可能要判断一个完整网站做得好不好,而“好”的答案有很多种。Yann 认为,发现问题、构建评估、量化改进,至少和训练模型一样重要,甚至可能更重要。

“发现问题,并且确保我们能量化改进,至少同样重要,甚至可能更重要。”

🔁 Continual Learning 仍是巨大未解难题

Yann 对 continual learning 非常兴奋。他认为今天的模型在进入一家公司的第一天可能比新员工更有用,但它们不会像人一样随着时间积累内部知识、理解工作习惯、持续变强。真正理想的 AI 应该是在环境中工作越久,对用户越有用。

“让模型在某个环境里工作得越久,就变得越有用。”

🚀 创业机会仍在最后一公里

对于应用层和创业公司,Yann 给出了非常明确的判断:模型的原始智能不一定是最终护城河,真正的护城河往往在最后一公里,包括权限、数据连接、工作流、领域知识和用户场景理解。OpenAI 会更专注通用能力,而垂直领域仍然有大量空间。

“我觉得大多数时候,真正的护城河在最后一公里。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight