别再说AI在减速了！Transformer作者爆料：真正的风暴，才刚刚开始

译起听世界

70分钟 ·5个月前

13

·

7

🎧 播客精华速递

最近总听到人说“AI要凉了”？Transformer架构之父Łukasz Kaiser在最新访谈中，给出了截然不同的答案。

🧠 核心洞察：AI的进步并未减速，而是换上了“推理”新引擎。我们熟悉的ChatGPT类模型，正从“背答案”的学霸，进化成会“动脑筋”的侦探。

💡 一个生动的比喻：

旧范式（大语言模型）：像记忆力超群、但可能给出过时答案的“天才学生”。

新范式（推理模型）：像会查官网、核信息、一步步推导的“严谨侦探”。

🎯 现状与未来：

当前模型能力已被严重低估，它能修东西、解题，但公众认知存在滞后。

真正的突破在于训练模型的 “思考过程”本身（思维链）。

未来，AI将从“代码助手”升级为能处理复杂工作流的 “AI实习生”。

🚨 一个有趣的反差：最前沿的模型能解复杂数学题，却可能被一道5岁孩子的逻辑题难倒。这揭示了AI与人类智能在“泛化”能力上的核心差距。

这场从“反应”到“思考”的范式革命，才刚刚拉开序幕。它如何重新定义我们与AI的协作关系？

👉 点击下方，探索这场静默风暴的完整脉络。

一、AI进展态势与范式转变

00:01:41 开场探讨：主持人提出关于“AI进展放缓”的公众叙事与近期密集发布新模型的现实矛盾。

00:02:38 嘉宾阐述根本趋势：强调AI能力呈平稳的指数级提升，并类比摩尔定律的持续性。

00:04:06 指出关键转折点：从Transformer到推理模型的兴起，标志着一种新的、近期才出现的技术范式。

00:07:31 点明认知差距：嘉宾认为当前模型能力已被圈内人熟知但公众尚未完全意识到，存在“教育差距”。

二、推理模型详解与训练范式

00:09:25 讨论改进空间：嘉宾承认存在大量“低垂的果实”，包括工程优化、数据质量提升和多模态能力。

00:12:32 定义推理模型：主持人请求用简单语言解释推理模型与基础大语言模型的根本区别。

00:13:02 解释核心机制：嘉宾描述推理模型通过“思维链”进行内部推理并可调用工具，其训练依赖于强化学习。

00:15:21 阐明当前局限：指出推理模型在数学、编程等可验证领域表现出色，但在更主观或泛化任务上仍有局限。

00:21:10 揭秘思维链呈现：解释用户看到的“思维链”是完整推理过程的摘要，并简述通过强化学习优化思考策略的过程。

三、个人经历与Transformer的诞生

00:23:53 话题转向个人背景：主持人邀请嘉宾分享其从数学家到AI前沿研究员的历程。

00:26:34 揭秘Transformer论文：讲述八位作者从未 physically 齐聚的故事，并强调不同研究线索的汇聚。

00:27:20 科普注意力机制：应主持人要求，简要解释了注意力机制在机器翻译中的起源和概念。

00:29:52 回顾早期挑战：提及让Transformer理念运行起来所需的工程努力，以及当时对“单一模型处理多任务”的普遍质疑。

00:31:26 讲述职业转变：分享从Google Brain加入OpenAI的缘由，包括疫情影响、团队规模偏好以及前同事的邀请。

四、模型演进、挑战与可解释性

00:35:34 探讨预训练的现状：认为预训练处于S曲线上半段，其回报增速放缓，且产品化带来了训练更小、更经济模型的压力。

00:38:36 重新发现蒸馏技术：解释由于经济性需求，行业重新重视用大模型蒸馏小模型的知识。

00:40:27 展望预训练复兴：认为随着GPU资源增加和对蒸馏价值的认识，大规模预训练可能会复兴。

00:41:12 讨论系统复杂性：主持人提出现代AI系统融合多种技术，询问其“黑箱”特性是否依然存在。

00:42:14 分享可解释性进展：嘉宾引用稀疏化研究为例，说明对模型内部机制的理解正在取得进展，但也承认存在根本性限制。

五、未来方向与行业影响

00:43:05 剖析GPT-5.1的改进：主持人询问从GPT-4到GPT-5.1的实质性变化，嘉宾指出推理能力和安全/对齐方面的后训练改进是关键。

00:48:44 解释模型命名逻辑：说明当前模型命名（如GPT-5.1, Mini）已与技术细节脱钩，更侧重于表示能力和产品定位。

00:52:04 揭示模型当前弱点：通过一个“共点计数”的视觉谜题实例，说明模型在多模态推理和上下文学习上的明显局限。

00:56:04 提出根本问题：探讨泛化能力是否是AI的核心挑战，以及仅靠推理能否实现足够好的泛化。

01:04:57 探讨AI对行业的影响：主持人提出在强大通用模型的世界中，创业者还能做什么，嘉宾以翻译行业为例，指出“信任”等因素仍将保留人类角色。

01:08:00 分享个人研究兴趣：嘉宾表示对“通用数据强化学习”以及最终实现机器人领域的突破充满热情，并预测硬件一旦成熟将带来显著变化。

如果有后续想要听其他外文播客，也欢迎留言：）

展开Show Notes

2025.12.18

38:13 这里作者真正解释了 Scaling law 看起来撞墙的原因。现在的模型距离人脑百万亿突触。还差了几个数量级…科学家是希望能够实现这样规模的模型，但是当前的经济条件不允许。 Chatgpt已经有10亿的用户，导致经济法则指向的方向是训练更小的模型来满足这些用户的需求。

2025.12.18

28:45 听了这么多播客讲注意力机制，这是头一回作者亲自讲的😄

2025.12.18

27:35 原来网上那张照片是假的… Transformer8个作者从来没有待在屋里同一个房间过

2025.12.18

25:36 我去，法国的终身教职，居然可以休长达10年的假😪

2025.12.18

22:55 这里提到的先让思考模型，生成100次答案，然后导向正确答案的，比如30个。然后我们就认为这30个的思维链是正确的，可以用来作为下一步训练。

这个方法很好的解决了思维链由人工来准备太麻烦的问题，我查了一下，这个就是deep seek r1中运用的，拒绝采样 Rejection sampling

2025.12.18

22:10
原来chat的gpt里面展示的思维链，是通过另外一个模型总结过的，他说这么做的原因是原版的思维链更啰嗦，更不友好，不太可读

2025.12.18

14:42 这里提到，思考模型的思维链是不可微分的，因此我们通过强化学习来产生反向传播的信号。

我猜作者想表达的是不是，这种思维链的token，不太可能通过人工准备sft数据的方法来直接训练，因为人工去写这些思维链实在是太麻烦了

在小宇宙打开