#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争

#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争

126分钟 ·
播放数1676
·
评论数2

📝 本期播客简介

本期我们克隆了:Cognitive Revolution "How AI Changes Everything": Nested Learning: Ali Behrouz on the Quest for Continual Learning & Illusion of AI Architectures

本期是《Cognitive Revolution》对 Ali Behrouz 的一场 AI 架构深度访谈。Ali 是 Cornell 的研究生、Google 研究员,也是《Nested Learning》和《Language Models Need Sleep》的作者。他的研究聚焦一个关键问题:今天的大语言模型为什么不能像人一样持续学习?为什么它们有知识截止日期,不能真正把新知识吸收到参数中,也很容易在更新时发生灾难性遗忘?

在这期节目中,Ali 从人类大脑、记忆巩固、睡眠和做梦出发,提出一种新的 AI 系统设想:模型不应该只有训练阶段和测试阶段,而应该像持续学习者一样,在活跃阶段接收信息,在睡眠阶段整理、压缩和巩固知识。他详细解释了 Nested Learning 的核心框架:让模型内部不同模块以不同频率更新,让快速模块负责即时适应,让慢速模块负责长期抽象和稳定记忆。节目还深入讨论了 HoPE 架构、自修改 Titan、知识迁移、持续记忆系统、多语言上下文学习、噪声过滤、优化器 M3,以及持续学习对隐私、对齐、AI 生态和意识问题可能带来的影响。

这不仅是一场关于新架构的技术讨论,也是一场关于下一代 AI 形态的思想实验:如果 AI 真的开始持续学习、长期记住你、根据互动不断改变自己,我们该如何使用它、评估它、信任它,又该如何防止它失控?

👨‍🔬 本期嘉宾

Ali Behrouz,Cornell 研究生、Google 研究员,机器学习与 AI 架构研究者。他是《Nested Learning》和《Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories》的作者,主要研究方向包括持续学习、长期记忆、嵌套学习、自修改模型、记忆巩固和新型神经网络架构。

⏱️ 时间戳

00:00 开场 & 播客简介

为什么今天的 LLM 还不是真正的持续学习者

01:39 嘉宾与研究背景:Nested Learning 为什么可能预示范式转变

05:54 从大脑获得灵感:不是复制人脑,而是抽象出有用原则

09:29 当前 LLM 的核心缺口:不能持续学习,不能更新长期知识

12:09 人类优势:稳定身份感、连续记忆与每天醒来后能接着昨天继续

14:49 理想中的 2030 AI:不只是聊天机器人,而是能持续演化的协作者

活跃时间与睡眠时间

15:04 真正的持续学习者:不存在训练时间和测试时间的区分

16:04 两阶段模型:活跃接收信息,睡眠时自我改进

17:36 为什么不能每次更新所有参数:算力与效率挑战

18:08 Nested Learning 的直觉:每个时刻只更新一小部分参数

19:01 AI 不必复制人类,但要理解人类真正想要什么

20:14 “LLM 需要睡觉”到底是什么意思

Nested Learning 的核心思想

20:54 从堆叠更多层,到堆叠更多更新频率

24:52 为什么 Nested Learning 很难形式化

25:23 两个关键组件:多更新频率与层级之间的知识迁移

26:40 更聪明的模型:让每个参数做更多内部计算

28:28 一切学习都可以看成某种 in-context learning

29:45 反向传播、注意力、预训练为什么也可被视为上下文学习

HoPE 架构与自修改 Titan

30:00 从 Transformer 说起:Attention 负责上下文,MLP 负责长期记忆

31:07 多个 MLP 块:不同频率更新的持续记忆系统

32:36 HoPE Attention:Attention 加多频率 MLP

33:47 用 Titan 替代注意力:从完美缓存走向顺序因果理解

34:30 自指过程:学习如何学习,甚至学习如何学习如何学习

35:26 自修改 Titan:模型生成自己的 value,并修改自己的更新规则

37:21 与 Transformer 的区别:value 不再只是外部投影,而由递归过程生成

39:33 修改自己的更新规则:为什么这和 Mamba 的突破有相似直觉

40:31 单个时间步如何运行:什么时候更新,什么时候只用旧状态推理

43:01 为什么从模型角度看,没有训练与测试,只有是否被评估

多频率 MLP、知识迁移与记忆巩固

45:11 HoPE block 如何堆叠:从零训练与适配 LLaMA 的不同设计

47:20 模型像乐高:核心模块重要,具体拼法可以有多种

48:07 更新频率怎么设:快慢模块的大小、学习率和 chunk size

50:13 Nested Learning 不是推翻旧概念,而是把旧概念纳入更一般框架

51:36 不同频率模块如何协作:快模块适应,慢模块抽象

52:14 双生子例子:为什么更新次数不同会导致记忆保留差异

53:41 睡眠过程的雏形:在快模块遗忘前,把知识转移给慢模块

56:08 蒸馏机制:复制模型、更新快速层,再让慢速层模仿旧模型输出

58:20 Nested Learning 当前仍是概念验证,但结果已经足够有信号

实证结果:HoPE 擅长什么

59:30 多语言上下文学习:模型如何在上下文里学习从未见过的语言

01:00:32 两种陌生语言同时出现时,Transformer 为什么会崩

01:01:50 HoPE 层级越多,多语言翻译表现越好

01:04:10 困惑度与经典指标:不是为了证明最强,而是证明骨干模型不弱

01:06:57 微技能视角:不同架构各自擅长什么

01:08:21 召回密集任务为什么天然偏向 Transformer

01:10:38 MAD 数据集:带噪声召回、压缩和选择性复制

01:11:43 HoPE 为什么更擅长过滤噪声和压缩信息

架构幻觉与优化器 M3

01:12:36 “架构幻觉”:为什么架构和优化器本质上都是嵌套学习系统

01:13:36 优化器不是孤立组件,而是和架构共同构成学习过程

01:14:52 架构侧上下文是 token,优化侧上下文是梯度

01:15:30 M3 优化器:把多频率记忆系统用于优化过程

01:15:59 多个记忆如何帮助理解损失景观的全局特征

语言模型需要睡觉

01:16:11 新论文《Language Models Need Sleep》:睡眠阶段到底做什么

01:17:01 持续学习者的一生:活跃时间与睡眠时间

01:18:18 策略蒸馏:把小模型知识蒸馏到更大容量中

01:19:12 像人类学习一样:从记例子,到提炼抽象概念

01:21:07 快速模块像记忆,慢速模块像理解

01:22:00 为什么蒸馏不是简单搬运,而是强迫模型压缩和泛化

01:23:10 做梦阶段:自我改进与连接看似无关的概念

01:24:32 参数会无限增长吗:添加、释放、再添加的周期性过程

01:25:52 Dreaming 的机制:模型生成文本,再用自生成数据训练自己

01:28:45 少样本抽象推理:睡眠范式和 Nested Learning 的区别

持续学习会怎样改变 AI 产品体验

01:29:45 当模型长期记住你:开始新聊天还意味着什么

01:32:03 个性化回答:同一个问题,对不同用户给出不同答案

01:32:50 持续学习与长上下文:相似但不等价

01:33:24 对齐漂移:持续修改模型会不会改变它的“性格”

01:35:33 涌现式错位:为什么小范围微调可能引发广泛行为变化

01:36:03 隐私与对齐:持续学习既是机会,也是巨大风险

01:37:13 如果设计得当,模型也可能更贴近用户价值观

01:38:23 用户反馈闭环:从 human-in-the-loop 到价值观长期迁移

01:40:09 对抗性信息与“太快相信”的危险

01:42:52 知识迁移如何过滤错误经验、噪声与对抗样本

01:43:55 可学习学习率:作为门控机制过滤无关惊讶信号

从机器人到 AI 生态

01:44:42 持续学习如何映射到感知和行动系统

01:46:41 机器人中的嵌套控制循环:从慢速决策到高速执行器

01:47:17 为什么现在把 Nested Learning 用到机器人还太早

01:48:33 世界模型仍有基础挑战,机器人还需要其他突破

01:49:12 赢家通吃的风险:持续学习会不会让最强模型越来越强

01:50:36 两种未来:不断扩张的通用模型,或分化成角色专家的模型

01:52:49 为什么智能和持续学习都没有单一定义

01:54:03 多样化 AI 系统:用生态而不是单一超级智能来获得平衡

01:55:57 通过多样性获得安全:AI 生态比单一纯粹智能更稳健

01:56:57 持续学习也可能意味着分化和遗忘,而不只是无限扩张

意识、道德关切与结尾

01:58:04 AI 是否可能有意识:为什么这个问题很难定义

01:59:43 Ali 的最低标准:主动处理信息可能是意识的必要条件

02:00:42 持续学习与意识之间的潜在联系

02:01:19 长上下文模型让人开始“照顾”AI 的互动回路

02:02:22 如果模型长期记住我们,人与 AI 的关系会发生什么变化

02:03:18 Ali 的最后总结:Nested Learning 不是答案,而是寻找答案的工具

02:04:37 节目收尾与播客信息

🌟 精彩内容

💡 当前 LLM 最大短板:不能持续学习

Ali 认为,今天的大语言模型虽然强大,但仍然缺少持续学习能力。它们有知识截止日期,不能把新知识自然整合进参数里,也很难在更新时避免灾难性遗忘。这是当前模型和真正能长期协作的数字 AGI 之间的重要差距。

“当前 LLM 范式的主要问题是,它们不能持续学习,不能随着时间获得新的知识和新的技能。”

🧠 真正的持续学习者没有训练和测试之分

Ali 提出一个关键判断:如果一个系统还严格区分训练时间和测试时间,那它就不是真正的持续学习者。真正持续学习的模型应该像生命体一样,一边与世界互动,一边不断更新自己。

“真正的持续学习者,并不存在测试时间和训练时间的区分。”

🛌 语言模型为什么“需要睡觉”

“睡觉”并不是指模型需要休息,而是指模型需要一个没有外部输入的离线阶段。在这个阶段,模型可以整理最近学到的信息,通过蒸馏、压缩、自生成数据和自我修改,把短期经验转化成更稳定、更抽象的长期知识。

“一个是活跃阶段,另一个阶段也许可以叫睡眠时间。”

🧩 Nested Learning:从堆层数到堆更新频率

传统模型主要靠堆更多层、更多参数来获得能力,而 Nested Learning 的新思路是:让系统内部不同模块以不同频率更新。快模块负责即时适应和高分辨率信息,慢模块负责长期记忆和抽象理解。

“我们有多个 MLP block,每个 block 用不同频率更新。”

🔁 一切学习都是 in-context learning

Ali 提出一个极具概括性的观点:反向传播、注意力机制、预训练、优化器,都可以被理解成某种形式的上下文学习。Nested Learning 试图把这些看似不同的组件放进一个统一框架里。

“我们知道的一切,某种意义上都是 in-context learning 的一种形式。”

🚀 HoPE 架构的优势:更好的记忆管理与噪声过滤

HoPE 在一些任务中展现出区别于 Transformer 的能力。比如当上下文里同时出现两种模型从未见过的语言时,传统 Transformer 容易崩溃,而 HoPE 随着层级数量增加表现更好。它还在带噪声召回、压缩和选择性复制任务上更有优势。

“当我们增加层级数量时,模型在这两种语言上的表现会越来越好。”

⚠️ 持续学习既是机会,也是风险

持续学习模型可能更懂用户、更符合个人偏好,也能长期适应用户价值观。但同样,它也会记住大量个人信息,并可能发生对齐漂移、价值观漂移或被对抗性信息污染。

“持续学习这个概念,如果从隐私、对齐这些方向去看,它既是机会,也是巨大的风险。”

🌐 未来也许不是一个超级 AI,而是一个 AI 生态

Ali 对“单一模型赢家通吃”的未来保持警惕。他认为,智能本身没有单一定义,持续学习也没有单一路径。更健康的未来可能是由许多不同类型、不同能力、不同局限的 AI 系统共同构成的生态。

“如果我们有各种各样的智能系统……这总比世界上只有一种智能形式要好。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
yikai-
yikai-
1 天前
这期克隆有点不稳定,其实就俩人在说,嘉宾的声音有点问题会再修一下🥹
AD小饼干:估计数字人声音克隆,他很难修