#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

📝 本期播客简介

本期我们克隆了：Cognitive Revolution "How AI Changes Everything": Nested Learning: Ali Behrouz on the Quest for Continual Learning & Illusion of AI Architectures

本期是《Cognitive Revolution》对 Ali Behrouz 的一场 AI 架构深度访谈。Ali 是 Cornell 的研究生、Google 研究员，也是《Nested Learning》和《Language Models Need Sleep》的作者。他的研究聚焦一个关键问题：今天的大语言模型为什么不能像人一样持续学习？为什么它们有知识截止日期，不能真正把新知识吸收到参数中，也很容易在更新时发生灾难性遗忘？

在这期节目中，Ali 从人类大脑、记忆巩固、睡眠和做梦出发，提出一种新的 AI 系统设想：模型不应该只有训练阶段和测试阶段，而应该像持续学习者一样，在活跃阶段接收信息，在睡眠阶段整理、压缩和巩固知识。他详细解释了 Nested Learning 的核心框架：让模型内部不同模块以不同频率更新，让快速模块负责即时适应，让慢速模块负责长期抽象和稳定记忆。节目还深入讨论了 HoPE 架构、自修改 Titan、知识迁移、持续记忆系统、多语言上下文学习、噪声过滤、优化器 M3，以及持续学习对隐私、对齐、AI 生态和意识问题可能带来的影响。

这不仅是一场关于新架构的技术讨论，也是一场关于下一代 AI 形态的思想实验：如果 AI 真的开始持续学习、长期记住你、根据互动不断改变自己，我们该如何使用它、评估它、信任它，又该如何防止它失控？

👨‍🔬 本期嘉宾

Ali Behrouz，Cornell 研究生、Google 研究员，机器学习与 AI 架构研究者。他是《Nested Learning》和《Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories》的作者，主要研究方向包括持续学习、长期记忆、嵌套学习、自修改模型、记忆巩固和新型神经网络架构。

⏱️ 时间戳

00:00 开场 & 播客简介

为什么今天的 LLM 还不是真正的持续学习者

01:39 嘉宾与研究背景：Nested Learning 为什么可能预示范式转变

05:54 从大脑获得灵感：不是复制人脑，而是抽象出有用原则

09:29 当前 LLM 的核心缺口：不能持续学习，不能更新长期知识

12:09 人类优势：稳定身份感、连续记忆与每天醒来后能接着昨天继续

14:49 理想中的 2030 AI：不只是聊天机器人，而是能持续演化的协作者

活跃时间与睡眠时间

15:04 真正的持续学习者：不存在训练时间和测试时间的区分

16:04 两阶段模型：活跃接收信息，睡眠时自我改进

17:36 为什么不能每次更新所有参数：算力与效率挑战

18:08 Nested Learning 的直觉：每个时刻只更新一小部分参数

19:01 AI 不必复制人类，但要理解人类真正想要什么

20:14 “LLM 需要睡觉”到底是什么意思

Nested Learning 的核心思想

20:54 从堆叠更多层，到堆叠更多更新频率

24:52 为什么 Nested Learning 很难形式化

25:23 两个关键组件：多更新频率与层级之间的知识迁移

26:40 更聪明的模型：让每个参数做更多内部计算

28:28 一切学习都可以看成某种 in-context learning

29:45 反向传播、注意力、预训练为什么也可被视为上下文学习

HoPE 架构与自修改 Titan

30:00 从 Transformer 说起：Attention 负责上下文，MLP 负责长期记忆

31:07 多个 MLP 块：不同频率更新的持续记忆系统

32:36 HoPE Attention：Attention 加多频率 MLP

33:47 用 Titan 替代注意力：从完美缓存走向顺序因果理解

34:30 自指过程：学习如何学习，甚至学习如何学习如何学习

35:26 自修改 Titan：模型生成自己的 value，并修改自己的更新规则

37:21 与 Transformer 的区别：value 不再只是外部投影，而由递归过程生成

39:33 修改自己的更新规则：为什么这和 Mamba 的突破有相似直觉

40:31 单个时间步如何运行：什么时候更新，什么时候只用旧状态推理

43:01 为什么从模型角度看，没有训练与测试，只有是否被评估

多频率 MLP、知识迁移与记忆巩固

45:11 HoPE block 如何堆叠：从零训练与适配 LLaMA 的不同设计

47:20 模型像乐高：核心模块重要，具体拼法可以有多种

48:07 更新频率怎么设：快慢模块的大小、学习率和 chunk size

50:13 Nested Learning 不是推翻旧概念，而是把旧概念纳入更一般框架

51:36 不同频率模块如何协作：快模块适应，慢模块抽象

52:14 双生子例子：为什么更新次数不同会导致记忆保留差异

53:41 睡眠过程的雏形：在快模块遗忘前，把知识转移给慢模块

56:08 蒸馏机制：复制模型、更新快速层，再让慢速层模仿旧模型输出

58:20 Nested Learning 当前仍是概念验证，但结果已经足够有信号

实证结果：HoPE 擅长什么

59:30 多语言上下文学习：模型如何在上下文里学习从未见过的语言

01:00:32 两种陌生语言同时出现时，Transformer 为什么会崩

01:01:50 HoPE 层级越多，多语言翻译表现越好

01:04:10 困惑度与经典指标：不是为了证明最强，而是证明骨干模型不弱

01:06:57 微技能视角：不同架构各自擅长什么

01:08:21 召回密集任务为什么天然偏向 Transformer

01:10:38 MAD 数据集：带噪声召回、压缩和选择性复制

01:11:43 HoPE 为什么更擅长过滤噪声和压缩信息

架构幻觉与优化器 M3

01:12:36 “架构幻觉”：为什么架构和优化器本质上都是嵌套学习系统

01:13:36 优化器不是孤立组件，而是和架构共同构成学习过程

01:14:52 架构侧上下文是 token，优化侧上下文是梯度

01:15:30 M3 优化器：把多频率记忆系统用于优化过程

01:15:59 多个记忆如何帮助理解损失景观的全局特征

语言模型需要睡觉

01:16:11 新论文《Language Models Need Sleep》：睡眠阶段到底做什么

01:17:01 持续学习者的一生：活跃时间与睡眠时间

01:18:18 策略蒸馏：把小模型知识蒸馏到更大容量中

01:19:12 像人类学习一样：从记例子，到提炼抽象概念

01:21:07 快速模块像记忆，慢速模块像理解

01:22:00 为什么蒸馏不是简单搬运，而是强迫模型压缩和泛化

01:23:10 做梦阶段：自我改进与连接看似无关的概念

01:24:32 参数会无限增长吗：添加、释放、再添加的周期性过程

01:25:52 Dreaming 的机制：模型生成文本，再用自生成数据训练自己

01:28:45 少样本抽象推理：睡眠范式和 Nested Learning 的区别

持续学习会怎样改变 AI 产品体验

01:29:45 当模型长期记住你：开始新聊天还意味着什么

01:32:03 个性化回答：同一个问题，对不同用户给出不同答案

01:32:50 持续学习与长上下文：相似但不等价

01:33:24 对齐漂移：持续修改模型会不会改变它的“性格”

01:35:33 涌现式错位：为什么小范围微调可能引发广泛行为变化

01:36:03 隐私与对齐：持续学习既是机会，也是巨大风险

01:37:13 如果设计得当，模型也可能更贴近用户价值观

01:38:23 用户反馈闭环：从 human-in-the-loop 到价值观长期迁移

01:40:09 对抗性信息与“太快相信”的危险

01:42:52 知识迁移如何过滤错误经验、噪声与对抗样本

01:43:55 可学习学习率：作为门控机制过滤无关惊讶信号

从机器人到 AI 生态

01:44:42 持续学习如何映射到感知和行动系统

01:46:41 机器人中的嵌套控制循环：从慢速决策到高速执行器

01:47:17 为什么现在把 Nested Learning 用到机器人还太早

01:48:33 世界模型仍有基础挑战，机器人还需要其他突破

01:49:12 赢家通吃的风险：持续学习会不会让最强模型越来越强

01:50:36 两种未来：不断扩张的通用模型，或分化成角色专家的模型

01:52:49 为什么智能和持续学习都没有单一定义

01:54:03 多样化 AI 系统：用生态而不是单一超级智能来获得平衡

01:55:57 通过多样性获得安全：AI 生态比单一纯粹智能更稳健

01:56:57 持续学习也可能意味着分化和遗忘，而不只是无限扩张

意识、道德关切与结尾

01:58:04 AI 是否可能有意识：为什么这个问题很难定义

01:59:43 Ali 的最低标准：主动处理信息可能是意识的必要条件

02:00:42 持续学习与意识之间的潜在联系

02:01:19 长上下文模型让人开始“照顾”AI 的互动回路

02:02:22 如果模型长期记住我们，人与 AI 的关系会发生什么变化

02:03:18 Ali 的最后总结：Nested Learning 不是答案，而是寻找答案的工具

02:04:37 节目收尾与播客信息

🌟 精彩内容

💡 当前 LLM 最大短板：不能持续学习

Ali 认为，今天的大语言模型虽然强大，但仍然缺少持续学习能力。它们有知识截止日期，不能把新知识自然整合进参数里，也很难在更新时避免灾难性遗忘。这是当前模型和真正能长期协作的数字 AGI 之间的重要差距。

“当前 LLM 范式的主要问题是，它们不能持续学习，不能随着时间获得新的知识和新的技能。”

🧠 真正的持续学习者没有训练和测试之分

Ali 提出一个关键判断：如果一个系统还严格区分训练时间和测试时间，那它就不是真正的持续学习者。真正持续学习的模型应该像生命体一样，一边与世界互动，一边不断更新自己。

“真正的持续学习者，并不存在测试时间和训练时间的区分。”

🛌 语言模型为什么“需要睡觉”

“睡觉”并不是指模型需要休息，而是指模型需要一个没有外部输入的离线阶段。在这个阶段，模型可以整理最近学到的信息，通过蒸馏、压缩、自生成数据和自我修改，把短期经验转化成更稳定、更抽象的长期知识。

“一个是活跃阶段，另一个阶段也许可以叫睡眠时间。”

🧩 Nested Learning：从堆层数到堆更新频率

传统模型主要靠堆更多层、更多参数来获得能力，而 Nested Learning 的新思路是：让系统内部不同模块以不同频率更新。快模块负责即时适应和高分辨率信息，慢模块负责长期记忆和抽象理解。

“我们有多个 MLP block，每个 block 用不同频率更新。”

🔁 一切学习都是 in-context learning

Ali 提出一个极具概括性的观点：反向传播、注意力机制、预训练、优化器，都可以被理解成某种形式的上下文学习。Nested Learning 试图把这些看似不同的组件放进一个统一框架里。

“我们知道的一切，某种意义上都是 in-context learning 的一种形式。”

🚀 HoPE 架构的优势：更好的记忆管理与噪声过滤

HoPE 在一些任务中展现出区别于 Transformer 的能力。比如当上下文里同时出现两种模型从未见过的语言时，传统 Transformer 容易崩溃，而 HoPE 随着层级数量增加表现更好。它还在带噪声召回、压缩和选择性复制任务上更有优势。

“当我们增加层级数量时，模型在这两种语言上的表现会越来越好。”

⚠️ 持续学习既是机会，也是风险

持续学习模型可能更懂用户、更符合个人偏好，也能长期适应用户价值观。但同样，它也会记住大量个人信息，并可能发生对齐漂移、价值观漂移或被对抗性信息污染。

“持续学习这个概念，如果从隐私、对齐这些方向去看，它既是机会，也是巨大的风险。”

🌐 未来也许不是一个超级 AI，而是一个 AI 生态

Ali 对“单一模型赢家通吃”的未来保持警惕。他认为，智能本身没有单一定义，持续学习也没有单一路径。更健康的未来可能是由许多不同类型、不同能力、不同局限的 AI 系统共同构成的生态。

“如果我们有各种各样的智能系统……这总比世界上只有一种智能形式要好。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight