#568. Transformer辩论：如何理解下一代智能之争

📝 本期播客简介

本期我们克隆了：Pathway《Transformer vs Post-Transformer | ft. Lukasz Kaiser, Adrian Kosowski, Mathias Lechner, & Llion Jones》

这是一场以“拳击赛”形式呈现的 AI 架构思想对决：Transformer 还会继续统治下一代 AI，还是我们已经站在 postTransformer 时代的门口？

辩论的一边，是 Transformer 共同发明者 Lukasz Kaiser，他认为 Transformer 虽然简单得近乎疯狂，却已经证明自己能够工作、能够扩展，并且可以被理解为一种强大的可微分记忆系统。另一边，Adrian Kosowski 和 Llion Jones 则认为，Transformer 只是智能的一种实现形式，而不是智能的终极答案。人脑的数据效率、连续学习、非语言推理和动态状态，都在提醒我们：一定还存在更好的东西。Mathias Lechner 则代表更工程化的中间路线：未来可能不是 Transformer 或 postTransformer 二选一，而是根据硬件、场景和能力需求，把所有可用 building block 组合起来。

这期节目尤其适合想理解 AI 底层趋势的人：为什么 Transformer 如此强大？为什么 scaling laws 仍然重要？为什么“用语言思考”可能不是最高效的 reasoning？新架构为什么总会被硬件拖住？benchmark 到底能不能衡量真实智能？如果你关心 AI 下一轮技术红利、创业机会、算力焦虑和 AGI 路线之争，这是一场非常值得听完的高密度讨论。

👨‍⚕️ 本期嘉宾

Lukasz Kaiser，Transformer 共同发明者之一，曾参与创建 ChatGPT o1，是现代大语言模型架构演进中的关键人物。

Adrian Kosowski，Pathway 的 CSO，BDH 架构的发明者之一，主张从动态系统、latent reasoning 和持续学习角度探索 postTransformer 架构。

Mathias Lechner，Liquid AI 研究者，专注于构建新一代 foundation model，强调 Transformer 与 postTransformer building blocks 的混合使用，以及模型在不同硬件和部署场景中的实际表现。

Llion Jones，Transformer 共同发明者之一，虽然参与了 Transformer 的诞生，但在本场辩论中站在 postTransformer 阵营，认为 AI 需要跳出当前架构的局部最优。

⏱️ 时间戳

00:00 开场 & 播客简介

拳击赛开局：谁代表 AI 的下一个时代

01:43 现场规则：用拳击赛形式辩论 Transformer vs postTransformer

04:02 Lukasz 开场：Transformer 是简单、漂亮、而且真正能工作的 memory

06:40 Adrian 开场：智能还没有迎来自己的 PageRank 时刻

09:54 Mathias 开场：未来不是二选一，而是 Transformer 加 postTransformer

12:22 Llion 开场：Transformer 很强，但它可能只是 brute force 的局部最优

第一轮交锋：Transformer 到底是不是终局

16:42 Lukasz 反驳：Transformer 仍是当前机器学习里最强的可扩展答案

19:00 Adrian 反击：reasoning 和 learning 不一样，语言思考不是唯一解

21:38 Mathias：Transformer 和 RNN 的边界会越来越模糊

23:33 Llion：真正突破不是重排组件，而是重新质疑神经网络假设

智能是什么：语言、压缩与人脑

26:04 智能定义之争：是可观察行为，还是更深层的信息处理过程

28:30 Transformer 是否把工程便利误认为科学真理

29:08 智能即压缩：预测互联网下一个词为什么如此有效

30:02 Language 与 reasoning：语言承载智能，但也限制思考方式

31:30 发现新知识时，非语言推理是否更高效

31:52 人脑与儿童启发：为什么小孩不用长链推理也能快速泛化

Scaling 之争：算力还会继续赢吗

33:06 Bitter Lesson：为什么十倍算力和十倍数据常常打败巧妙设计

33:34 不同架构都有 scaling law，但硬件适配决定谁能赢

34:34 Lukasz：如果有比 Transformer 更好的 scaling curve，请拿出来

35:56 Adrian：数据、模型、算力不一定必须一起 scale

现实世界部署与 benchmark

36:58 非文本模态：蛋白质、基因序列和生物医学信号中的架构差异

38:05 Benchmark 会不会误导我们

39:11 Perplexity：为什么“预测下一个 token”仍可能是最硬的指标

40:57 最后陈述：比拼的关键不是单次成绩，而是 scaling curve 的斜率

最终立场：Transformer 现在赢，但未来未定

41:53 Adrian：下一次突破可能来自更高效、更紧凑的 reasoning

43:08 Mathias：两边都押注，探索所有可能性

43:40 Llion：今天没有任何理由能让我放弃“还有更好东西”的信念

观众提问：硬件会不会锁死创新

44:31 硬件彩票：现有 GPU/TPU 是否让大家困在 Transformer 范式

45:18 Llion：postTransformer 第一版不必马上打败 SOTA

46:12 Lukasz：Transformer 当年也不适配硬件，真正强的架构会推动硬件改变

48:38 慢 50 倍也不要怕：只要 scaling curve 更好，就值得探索

学习、记忆与动态权重

48:59 智能是否首先是学习能力

50:10 In-context learning：把上下文学习延长到无限时间会怎样

51:01 Continual learning：给静态权重打补丁，还是从头设计动态系统

51:41 Transformer 的 activation 是否已经在做类似 gradient descent 的事

53:25 Transformer 不会消失：postTransformer 世界里仍会使用 Transformer

54:08 Attention weights 也是动态权重吗

55:32 经验型 context：模型是否能从自己的行动、错误和反馈中学习

安全、微调与 latent reasoning

57:25 Fine-tuning、context learning 和 latent space 推理的关系

58:05 文本 chain of thought 是否真的可解释

58:58 postTransformer 是否可能更接近大脑，从而更可解释、更安全

59:13 现场投票：用欢呼声决定今晚冠军

🌟 精彩内容

💡 Transformer 的核心优势：简单到疯狂，但真的能工作

Lukasz Kaiser 为 Transformer 做出的核心辩护，不是说它完美，而是说它已经在最重要的层面证明了自己：它简单、可扩展、能被硬件放大，并且真的产生了聊天、写代码、操作电脑等能力。他把 Transformer 理解为一种 memory：为每段输入写下 key 和 value，再用 soft attention 检索相关内容。

“这个疯狂简单的机器，只是在一句话或者一段更长文本里预测下一个 token，却能够和你聊天，现在还能写代码，点击你电脑上的窗口。”

🧠 PostTransformer 的焦虑：智能还没有 PageRank 时刻

Adrian Kosowski 认为，Transformer 是智能的一种实现，但不是智能背后的共同原理。就像搜索引擎时代，PageRank 抓住了信息索引的核心机制一样，AI 领域仍然缺少一个真正解释智能的核心方程或过程。postTransformer 的意义，不是简单否定 Transformer，而是继续寻找更直接、更完整的智能机制。

“我认为，在智能这件事上，我们还没有迎来 PageRank 时刻。”

🥊 Transformer 共同发明者倒戈：我们被困在局部最优里

Llion Jones 的立场格外有意思：作为 Transformer 共同发明者之一，他却站在 postTransformer 阵营。他认为 Transformer 太成功了，反而让研究社区过度围绕它做增量改进，忽略了更根本的假设：神经网络一定要长这样吗？一定要用 backpropagation 训练吗？reasoning 一定要用语言展开吗？

“今天我没有听到任何理由，能让我怀疑自己的信念：一定还有更好的东西。”

⚙️ 硬件不是借口，但决定了谁能成为主流

这场辩论反复回到一个现实问题：很多新架构也许理论上更优，但如果跑在当前硬件上慢 50 倍，就很难被接受。Lukasz 提醒大家，Transformer 当年也并不天然适配 TPU，甚至 softmax 还需要绕到 CPU 上处理。真正强的新架构，需要先证明自己有更好的 scaling curve，然后硬件自然会跟上。

“如果你给我看一个模型，它只是稳定地慢五十倍，但增长曲线更好，那你就赢了。”

📈 Scaling Laws 仍是绕不开的门槛

即便 postTransformer 阵营认为还有更好的架构，大家也基本承认一个事实：任何新架构都必须面对 bitter lesson。AI 历史上，很多巧妙设计最终输给了更大算力、更大数据和更好 scaling。问题不在于要不要 scale，而在于有没有可能找到一种架构，用更少数据、更少硬件、更高效率完成同样甚至更强的能力。

“如果你给我看一条曲线，它下降得比 transformer 更陡，那我可能就得承认。”

🧩 语言不是推理的全部

嘉宾们讨论了一个关键问题：当前大模型很大程度上是在语言中 reasoning，但人类的许多思考过程并不是语言化的。Llion 认为，语言承载了大量智能，所以语言模型才会成功；但语言也可能限制了模型进行发现、直觉和快速泛化的能力。postTransformer 可能需要在 latent space 中做更原生的 reasoning。

“我们强迫它们用 language 来思考，可我们自己的某些心理过程，确实不是建立在 language 上的。”

🧪 Benchmark 的核心指标也许还是 perplexity

面对各种 benchmark 被刷榜、被针对的问题，Lukasz 提出一个朴素但重要的观点：perplexity，也就是预测下一个 token 的能力，仍然是非常难被超越的指标。它本质上对应“压缩”：如果一个模型能更好地压缩文本、代码、图像或蛋白质序列，它往往也更理解这些数据。

“你越能更好地压缩互联网，你就越智能。”

🔄 Continual Learning：AI 是否需要像人一样持续更新

观众提问引出了另一个核心差异：人类和生物的大脑不是冻结的，而是每一秒都在更新连接；而当前 Transformer 通常是预训练后冻结，再通过上下文、微调或外部系统补充能力。Adrian 提出，可以把 in-context learning 看成一种延长版学习：如果模型拥有无限长上下文，持续记住经验、错误和反馈，它也许就接近了持续学习。

“智能就像是把 in-context learning 延长到时间趋近于无穷。”

🛡️ Latent Reasoning 与安全：文本思维并不等于可解释

关于 latent space 推理是否带来安全风险，Lukasz 提醒大家不要误以为文本 chain of thought 就完全透明。即便模型输出的是文字，文字之上仍然有大量 activation 和高维向量活动，我们并不知道里面真正发生了什么。未来模型可能说出同样的词，但内部想法已经完全不同。

“只是因为 pretraining，它们现在还算忠实。但也许有一天，你会看到模型说出同样的词，可里面的想法已经完全不同。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight