别再说AI在减速了!Transformer作者爆料:真正的风暴,才刚刚开始译起听世界

别再说AI在减速了!Transformer作者爆料:真正的风暴,才刚刚开始

70分钟 ·
播放数13
·
评论数7

🎧 播客精华速递

最近总听到人说“AI要凉了”?Transformer架构之父Łukasz Kaiser在最新访谈中,给出了截然不同的答案。

🧠 核心洞察:AI的进步并未减速,而是换上了“推理”新引擎。我们熟悉的ChatGPT类模型,正从“背答案”的学霸,进化成会“动脑筋”的侦探。

💡 一个生动的比喻

  • 旧范式(大语言模型):像记忆力超群、但可能给出过时答案的“天才学生”。
  • 新范式(推理模型):像会查官网、核信息、一步步推导的“严谨侦探”。

🎯 现状与未来

  • 当前模型能力已被严重低估,它能修东西、解题,但公众认知存在滞后。
  • 真正的突破在于训练模型的 “思考过程”本身(思维链)。
  • 未来,AI将从“代码助手”升级为能处理复杂工作流的 “AI实习生”

🚨 一个有趣的反差:最前沿的模型能解复杂数学题,却可能被一道5岁孩子的逻辑题难倒。这揭示了AI与人类智能在“泛化”能力上的核心差距。

这场从“反应”到“思考”的范式革命,才刚刚拉开序幕。它如何重新定义我们与AI的协作关系?

👉 点击下方,探索这场静默风暴的完整脉络。

一、AI进展态势与范式转变

  • 00:01:41 开场探讨:主持人提出关于“AI进展放缓”的公众叙事与近期密集发布新模型的现实矛盾。
  • 00:02:38 嘉宾阐述根本趋势:强调AI能力呈平稳的指数级提升,并类比摩尔定律的持续性。
  • 00:04:06 指出关键转折点:从Transformer到推理模型的兴起,标志着一种新的、近期才出现的技术范式。
  • 00:07:31 点明认知差距:嘉宾认为当前模型能力已被圈内人熟知但公众尚未完全意识到,存在“教育差距”。

二、推理模型详解与训练范式

  • 00:09:25 讨论改进空间:嘉宾承认存在大量“低垂的果实”,包括工程优化、数据质量提升和多模态能力。
  • 00:12:32 定义推理模型:主持人请求用简单语言解释推理模型与基础大语言模型的根本区别。
  • 00:13:02 解释核心机制:嘉宾描述推理模型通过“思维链”进行内部推理并可调用工具,其训练依赖于强化学习。
  • 00:15:21 阐明当前局限:指出推理模型在数学、编程等可验证领域表现出色,但在更主观或泛化任务上仍有局限。
  • 00:21:10 揭秘思维链呈现:解释用户看到的“思维链”是完整推理过程的摘要,并简述通过强化学习优化思考策略的过程。

三、个人经历与Transformer的诞生

  • 00:23:53 话题转向个人背景:主持人邀请嘉宾分享其从数学家到AI前沿研究员的历程。
  • 00:26:34 揭秘Transformer论文:讲述八位作者从未 physically 齐聚的故事,并强调不同研究线索的汇聚。
  • 00:27:20 科普注意力机制:应主持人要求,简要解释了注意力机制在机器翻译中的起源和概念。
  • 00:29:52 回顾早期挑战:提及让Transformer理念运行起来所需的工程努力,以及当时对“单一模型处理多任务”的普遍质疑。
  • 00:31:26 讲述职业转变:分享从Google Brain加入OpenAI的缘由,包括疫情影响、团队规模偏好以及前同事的邀请。

四、模型演进、挑战与可解释性

  • 00:35:34 探讨预训练的现状:认为预训练处于S曲线上半段,其回报增速放缓,且产品化带来了训练更小、更经济模型的压力。
  • 00:38:36 重新发现蒸馏技术:解释由于经济性需求,行业重新重视用大模型蒸馏小模型的知识。
  • 00:40:27 展望预训练复兴:认为随着GPU资源增加和对蒸馏价值的认识,大规模预训练可能会复兴。
  • 00:41:12 讨论系统复杂性:主持人提出现代AI系统融合多种技术,询问其“黑箱”特性是否依然存在。
  • 00:42:14 分享可解释性进展:嘉宾引用稀疏化研究为例,说明对模型内部机制的理解正在取得进展,但也承认存在根本性限制。

五、未来方向与行业影响

  • 00:43:05 剖析GPT-5.1的改进:主持人询问从GPT-4到GPT-5.1的实质性变化,嘉宾指出推理能力和安全/对齐方面的后训练改进是关键。
  • 00:48:44 解释模型命名逻辑:说明当前模型命名(如GPT-5.1, Mini)已与技术细节脱钩,更侧重于表示能力和产品定位。
  • 00:52:04 揭示模型当前弱点:通过一个“共点计数”的视觉谜题实例,说明模型在多模态推理和上下文学习上的明显局限。
  • 00:56:04 提出根本问题:探讨泛化能力是否是AI的核心挑战,以及仅靠推理能否实现足够好的泛化。
  • 01:04:57 探讨AI对行业的影响:主持人提出在强大通用模型的世界中,创业者还能做什么,嘉宾以翻译行业为例,指出“信任”等因素仍将保留人类角色。
  • 01:08:00 分享个人研究兴趣:嘉宾表示对“通用数据强化学习”以及最终实现机器人领域的突破充满热情,并预测硬件一旦成熟将带来显著变化。

如果有后续想要听其他外文播客,也欢迎留言:)

展开Show Notes
xstarcity
xstarcity
2025.12.18
38:13 这里作者真正解释了 Scaling law 看起来撞墙的原因。现在的模型距离人脑百万亿突触。还差了几个数量级…科学家是希望能够实现这样规模的模型,但是当前的经济条件不允许。 Chatgpt已经有10亿的用户,导致经济法则指向的方向是训练更小的模型来满足这些用户的需求。
xstarcity
xstarcity
2025.12.18
28:45 听了这么多播客讲注意力机制,这是头一回作者亲自讲的😄
xstarcity
xstarcity
2025.12.18
27:35 原来网上那张照片是假的… Transformer8个作者从来没有待在屋里同一个房间过
xstarcity
xstarcity
2025.12.18
25:36 我去,法国的终身教职,居然可以休长达10年的假😪
xstarcity
xstarcity
2025.12.18
22:55 这里提到的先让思考模型,生成100次答案,然后导向正确答案的,比如30个。然后我们就认为这30个的思维链是正确的,可以用来作为下一步训练。

这个方法很好的解决了思维链由人工来准备太麻烦的问题,我查了一下,这个就是deep seek r1中运用的,拒绝采样 Rejection sampling
xstarcity
xstarcity
2025.12.18
22:10
原来chat的gpt里面展示的思维链,是通过另外一个模型总结过的,他说这么做的原因是原版的思维链更啰嗦,更不友好,不太可读
xstarcity
xstarcity
2025.12.18
14:42 这里提到,思考模型的思维链是不可微分的,因此我们通过强化学习来产生反向传播的信号。

我猜作者想表达的是不是,这种思维链的token,不太可能通过人工准备sft数据的方法来直接训练,因为人工去写这些思维链实在是太麻烦了