#605.Dwarkesh：AI 训练的下一个范式，为什么你的模型永远毕不了业

📝 本期播客简介

本期我们克隆了：Dwarkesh Patel 的个人深度播客 What does the next training paradigm look like?

原内容更新时间：2026-06-26

Dwarkesh Patel 是硅谷当下最受瞩目的科技思想者和深度访谈主持人，以长篇幅、高密度的逻辑推演著称。在这期单人音频论文里，他没有邀请嘉宾，而是单刀直入地解剖了当前 AI 训练范式的根本性缺陷，并描绘了一个通往通用智能的关键路径：持续学习。

这期节目不是泛泛的行业趋势讨论，而是一场关于 AI 如何从“课堂学霸”进化为“职场精英”的严密思辨。Dwarkesh 从“可验证性”与“可磨练性”的区分切入，层层推演出为什么当前依赖 RL 环境训练的范式不足以产生真正的通用智能，以及为什么让模型在部署后持续从真实世界互动中学习，才是破局的关键。如果你在思考 AI 的能力边界、训练瓶颈和下一个十年的技术路线图，这期内容会提供极高密度的认知框架。

👨‍⚕️ 本期嘉宾

本期为 Dwarkesh Patel 单人音频论文，无嘉宾。Dwarkesh 是硅谷知名播客《Dwarkesh Podcast》的主持人，以与顶尖 AI 研究者、企业家和思想家的深度对话闻名。他擅长将复杂的技术概念转化为清晰的逻辑链条，其个人博客和音频论文在 AI 社区中具有广泛影响力。

⏱️ 时间戳

开场与核心问题

00:00 欢迎收听跨国串门计划

00:30 本期克隆节目介绍：Dwarkesh Patel 个人深度音频论文

00:53 核心问题：AI 训练的下一个范式与持续学习

当前训练范式的赌注与缺陷

01:47 各大实验室押注的重大研究方向：RL 环境训练

02:09 当前范式的根本缺陷：数据低效与缺乏持续学习

02:32 模型样本效率只有人类的百万分之一

03:05 持续学习可能根本不需要？上下文学习的替代方案

03:43 架构创新让上下文窗口接近无限大

可验证性 vs 可磨练性

03:55 为什么计算机使用进展比编程慢这么多

04:28 被低估的原因：光有可验证性不够

04:49 可磨练性的定义：确定性、可重放的模拟器

05:04 编程 RL 环境的构建方式

05:21 计算机使用无法大规模并行 rollout 的原因

06:02 计算机使用缓慢揭示的深层教训

06:29 无法构建模拟器的领域：创业、诉讼、选举

07:06 非稳态环境是 RL 的开放问题

07:14 世界需要样本效率才能精通

RLVR 能泛化到真实世界吗

07:49 RLVR 会泛化的赌注

08:23 泛化能力是一个实证问题

08:40 Dario 的暗示：短时间尺度训练不一定泛化到长时间尺度

09:30 即使上下文内经验足够，不存回权重也是浪费

09:44 推理算力占 30%-50%，对改进模型无贡献

10:13 天才研究生从不实习的隐喻

持续学习的核心挑战

10:33 持续学习必须回到权重里

10:43 人类大脑不在参数和激活间划界限

11:00 自闭症天才的高保真记忆与抽象能力削弱

11:20 人类持续学习的本质：把直觉凿回权重

11:30 梯度更新的样本效率极低

11:41 Cursor 的在线学习案例

12:12 每份工作、每家公司都不同，需要个性化学习

12:44 样本效率与持续学习是深度关联的问题

13:06 架构并非根本瓶颈

损失函数与新的训练方法

13:27 瓶颈也许在于损失函数

13:42 On-Policy 自蒸馏技术介绍

14:14 OPSSD 优于 RLVR 的两个原因

14:50 OPSSD 也优于监督微调

15:17 RL 训练擅长精准更新，避免灾难性遗忘

15:41 RL 每个样本学得少，但这是好事

16:08 OPSSD 解决样本效率问题

Dreaming：第四个扩展维度

16:18 Dreaming 的猜想：AI 构建现实模拟器

16:33 AlphaZero 与 Efficient Zero 的历史

17:03 模型在“脑海”里玩模拟游戏

17:22 构建世界模拟器的巨大困难

17:32 继预训练、RL、推理时计算后的第四维度

18:04 /dream 指令：消耗海量算力构建电子游戏版现实

2027-2028 年的可能图景

18:13 持续学习的未来情景

18:23 RLVR 产出的 Agent 能迅速找到方向

18:44 把 Agent 放到真实世界做实际工作

18:55 一周密集协作后蒸馏学到的内容

19:32 技能范围通过持续学习不断扩展

19:41 预训练、RLVR、持续学习的递进关系

20:03 AI 进步的主要方式将转向部署后学习

20:16 你每次互动，AI 都变得更聪明

🌟 精彩内容

💡 天才研究生从不实习

Dwarkesh 用一个精准的比喻揭示了当前训练范式的荒诞：我们花了巨大算力训练出极其聪明的模型，却只让它们在人工构造的 RL 环境里做“课堂案例研究”，从不允许它们从真实世界的部署经验中学习。最有价值的训练信息恰恰在部署阶段才会显现。

“我们就像有个天才研究生，却从不让他去真正实习。我们只是一直在 RL 环境训练里，给他越来越多的课堂案例研究。”

💡 可验证性不够，还要可磨练性

很多人困惑为什么 AI 在编程上突飞猛进，在计算机使用上却进展缓慢。Dwarkesh 指出，一个领域光有可验证的正确答案是远远不够的，还必须能构建出确定性、可重放、可大规模并行的模拟器。这解释了为什么很多现实世界技能难以通过当前范式训练。

“一个领域光有可验证性是不够的。它还必须具备高度的可磨练性。”

💡 人类持续学习的本质是压缩

与模型在上下文窗口中高保真存储信息不同，人类学习的关键在于把经验压缩成直觉和全局知识，凿回神经权重里。那些能记住海量细节的自闭症天才，反而在抽象理解上存在困难。

“人类的持续学习，重点不在于把所有观察到的东西都挂在嘴边，而更多是把正确的直觉和全局知识凿回到权重里。”

💡 RL 学得少反而是优势

监督学习试图让模型完美复现所有观察到的数据，但这会导致灾难性遗忘。RL 训练每次只改动极少数参数，精准聚焦于真正影响结果的地方。这种“学得少”的特性，恰恰是持续学习所需要的。

“RL 每个样本学到的信息比监督学习少得多。但这可能是好事，而不是坏事。你只对模型做最必要的改动来达成结果，绝不多改。”

💡 你每次互动，AI 都变得更聪明

当持续学习真正实现后，AI 进步的主要方式将不再是发布前的集中训练，而是来自部署后与全世界所有用户的所有互动中积累的经验。这是一个与今天完全不同的 AI 进化范式。

“你每次和 AI 互动，它都会变得更聪明。这不仅是因为它从你之前的会话中学习了，也因为它从和世界上所有其他用户的所有互动中学习了。”

💡 Dreaming：第四个扩展维度

Dwarkesh 提出一个猜想性的未来：如果 AI 能构建现实世界的高保真模拟器，在“脑海”里进行海量排练，那么同样的现实时间里，AI 能经历数量级更多的模拟样本。这将成为继预训练、RL 和推理时计算之后的第四个扩展维度。

“模型花费算力来编写 RL 环境，然后针对这些环境进行训练，它排练的是那些将为特定用户在生产中实际使用的所有技能。”

💡 上下文窗口无限大也不能替代权重更新

有人寄希望于上下文窗口的不断扩展来替代持续学习，但 Dwarkesh 指出这根本不可扩展，而且人类也不是这么做的。我们的头骨不会因为学得越来越多就不断变大，学习必然涉及某种压缩。

“你的头骨也不会因为一辈子学的东西越来越多就不断变大。我们学习的时候，明显存在某种压缩，这种压缩帮助我们泛化和真正理解。”

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight