📝 本期播客简介
本期是《Cognitive Revolution》对 Ali Behrouz 的一场 AI 架构深度访谈。Ali 是 Cornell 的研究生、Google 研究员,也是《Nested Learning》和《Language Models Need Sleep》的作者。他的研究聚焦一个关键问题:今天的大语言模型为什么不能像人一样持续学习?为什么它们有知识截止日期,不能真正把新知识吸收到参数中,也很容易在更新时发生灾难性遗忘?
在这期节目中,Ali 从人类大脑、记忆巩固、睡眠和做梦出发,提出一种新的 AI 系统设想:模型不应该只有训练阶段和测试阶段,而应该像持续学习者一样,在活跃阶段接收信息,在睡眠阶段整理、压缩和巩固知识。他详细解释了 Nested Learning 的核心框架:让模型内部不同模块以不同频率更新,让快速模块负责即时适应,让慢速模块负责长期抽象和稳定记忆。节目还深入讨论了 HoPE 架构、自修改 Titan、知识迁移、持续记忆系统、多语言上下文学习、噪声过滤、优化器 M3,以及持续学习对隐私、对齐、AI 生态和意识问题可能带来的影响。
这不仅是一场关于新架构的技术讨论,也是一场关于下一代 AI 形态的思想实验:如果 AI 真的开始持续学习、长期记住你、根据互动不断改变自己,我们该如何使用它、评估它、信任它,又该如何防止它失控?
👨🔬 本期嘉宾
Ali Behrouz,Cornell 研究生、Google 研究员,机器学习与 AI 架构研究者。他是《Nested Learning》和《Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories》的作者,主要研究方向包括持续学习、长期记忆、嵌套学习、自修改模型、记忆巩固和新型神经网络架构。
⏱️ 时间戳
开场 & 播客简介
为什么今天的 LLM 还不是真正的持续学习者
嘉宾与研究背景:Nested Learning 为什么可能预示范式转变
从大脑获得灵感:不是复制人脑,而是抽象出有用原则
当前 LLM 的核心缺口:不能持续学习,不能更新长期知识
人类优势:稳定身份感、连续记忆与每天醒来后能接着昨天继续
理想中的 2030 AI:不只是聊天机器人,而是能持续演化的协作者
活跃时间与睡眠时间
真正的持续学习者:不存在训练时间和测试时间的区分
两阶段模型:活跃接收信息,睡眠时自我改进
为什么不能每次更新所有参数:算力与效率挑战
Nested Learning 的直觉:每个时刻只更新一小部分参数
AI 不必复制人类,但要理解人类真正想要什么
“LLM 需要睡觉”到底是什么意思
Nested Learning 的核心思想
从堆叠更多层,到堆叠更多更新频率
为什么 Nested Learning 很难形式化
两个关键组件:多更新频率与层级之间的知识迁移
更聪明的模型:让每个参数做更多内部计算
一切学习都可以看成某种 in-context learning
反向传播、注意力、预训练为什么也可被视为上下文学习
HoPE 架构与自修改 Titan
从 Transformer 说起:Attention 负责上下文,MLP 负责长期记忆
多个 MLP 块:不同频率更新的持续记忆系统
HoPE Attention:Attention 加多频率 MLP
用 Titan 替代注意力:从完美缓存走向顺序因果理解
自指过程:学习如何学习,甚至学习如何学习如何学习
自修改 Titan:模型生成自己的 value,并修改自己的更新规则
与 Transformer 的区别:value 不再只是外部投影,而由递归过程生成
修改自己的更新规则:为什么这和 Mamba 的突破有相似直觉
单个时间步如何运行:什么时候更新,什么时候只用旧状态推理
为什么从模型角度看,没有训练与测试,只有是否被评估
多频率 MLP、知识迁移与记忆巩固
HoPE block 如何堆叠:从零训练与适配 LLaMA 的不同设计
模型像乐高:核心模块重要,具体拼法可以有多种
更新频率怎么设:快慢模块的大小、学习率和 chunk size
Nested Learning 不是推翻旧概念,而是把旧概念纳入更一般框架
不同频率模块如何协作:快模块适应,慢模块抽象
双生子例子:为什么更新次数不同会导致记忆保留差异
睡眠过程的雏形:在快模块遗忘前,把知识转移给慢模块
蒸馏机制:复制模型、更新快速层,再让慢速层模仿旧模型输出
Nested Learning 当前仍是概念验证,但结果已经足够有信号
实证结果:HoPE 擅长什么
多语言上下文学习:模型如何在上下文里学习从未见过的语言
两种陌生语言同时出现时,Transformer 为什么会崩
HoPE 层级越多,多语言翻译表现越好
困惑度与经典指标:不是为了证明最强,而是证明骨干模型不弱
微技能视角:不同架构各自擅长什么
召回密集任务为什么天然偏向 Transformer
MAD 数据集:带噪声召回、压缩和选择性复制
HoPE 为什么更擅长过滤噪声和压缩信息
架构幻觉与优化器 M3
“架构幻觉”:为什么架构和优化器本质上都是嵌套学习系统
优化器不是孤立组件,而是和架构共同构成学习过程
架构侧上下文是 token,优化侧上下文是梯度
M3 优化器:把多频率记忆系统用于优化过程
多个记忆如何帮助理解损失景观的全局特征
语言模型需要睡觉
新论文《Language Models Need Sleep》:睡眠阶段到底做什么
持续学习者的一生:活跃时间与睡眠时间
策略蒸馏:把小模型知识蒸馏到更大容量中
像人类学习一样:从记例子,到提炼抽象概念
快速模块像记忆,慢速模块像理解
为什么蒸馏不是简单搬运,而是强迫模型压缩和泛化
做梦阶段:自我改进与连接看似无关的概念
参数会无限增长吗:添加、释放、再添加的周期性过程
Dreaming 的机制:模型生成文本,再用自生成数据训练自己
少样本抽象推理:睡眠范式和 Nested Learning 的区别
持续学习会怎样改变 AI 产品体验
当模型长期记住你:开始新聊天还意味着什么
个性化回答:同一个问题,对不同用户给出不同答案
持续学习与长上下文:相似但不等价
对齐漂移:持续修改模型会不会改变它的“性格”
涌现式错位:为什么小范围微调可能引发广泛行为变化
隐私与对齐:持续学习既是机会,也是巨大风险
如果设计得当,模型也可能更贴近用户价值观
用户反馈闭环:从 human-in-the-loop 到价值观长期迁移
对抗性信息与“太快相信”的危险
知识迁移如何过滤错误经验、噪声与对抗样本
可学习学习率:作为门控机制过滤无关惊讶信号
从机器人到 AI 生态
持续学习如何映射到感知和行动系统
机器人中的嵌套控制循环:从慢速决策到高速执行器
为什么现在把 Nested Learning 用到机器人还太早
世界模型仍有基础挑战,机器人还需要其他突破
赢家通吃的风险:持续学习会不会让最强模型越来越强
两种未来:不断扩张的通用模型,或分化成角色专家的模型
为什么智能和持续学习都没有单一定义
多样化 AI 系统:用生态而不是单一超级智能来获得平衡
通过多样性获得安全:AI 生态比单一纯粹智能更稳健
持续学习也可能意味着分化和遗忘,而不只是无限扩张
意识、道德关切与结尾
AI 是否可能有意识:为什么这个问题很难定义
Ali 的最低标准:主动处理信息可能是意识的必要条件
持续学习与意识之间的潜在联系
长上下文模型让人开始“照顾”AI 的互动回路
如果模型长期记住我们,人与 AI 的关系会发生什么变化
Ali 的最后总结:Nested Learning 不是答案,而是寻找答案的工具
节目收尾与播客信息
🌟 精彩内容
💡 当前 LLM 最大短板:不能持续学习
Ali 认为,今天的大语言模型虽然强大,但仍然缺少持续学习能力。它们有知识截止日期,不能把新知识自然整合进参数里,也很难在更新时避免灾难性遗忘。这是当前模型和真正能长期协作的数字 AGI 之间的重要差距。
“当前 LLM 范式的主要问题是,它们不能持续学习,不能随着时间获得新的知识和新的技能。”
🧠 真正的持续学习者没有训练和测试之分
Ali 提出一个关键判断:如果一个系统还严格区分训练时间和测试时间,那它就不是真正的持续学习者。真正持续学习的模型应该像生命体一样,一边与世界互动,一边不断更新自己。
“真正的持续学习者,并不存在测试时间和训练时间的区分。”
🛌 语言模型为什么“需要睡觉”
“睡觉”并不是指模型需要休息,而是指模型需要一个没有外部输入的离线阶段。在这个阶段,模型可以整理最近学到的信息,通过蒸馏、压缩、自生成数据和自我修改,把短期经验转化成更稳定、更抽象的长期知识。
“一个是活跃阶段,另一个阶段也许可以叫睡眠时间。”
🧩 Nested Learning:从堆层数到堆更新频率
传统模型主要靠堆更多层、更多参数来获得能力,而 Nested Learning 的新思路是:让系统内部不同模块以不同频率更新。快模块负责即时适应和高分辨率信息,慢模块负责长期记忆和抽象理解。
“我们有多个 MLP block,每个 block 用不同频率更新。”
🔁 一切学习都是 in-context learning
Ali 提出一个极具概括性的观点:反向传播、注意力机制、预训练、优化器,都可以被理解成某种形式的上下文学习。Nested Learning 试图把这些看似不同的组件放进一个统一框架里。
“我们知道的一切,某种意义上都是 in-context learning 的一种形式。”
🚀 HoPE 架构的优势:更好的记忆管理与噪声过滤
HoPE 在一些任务中展现出区别于 Transformer 的能力。比如当上下文里同时出现两种模型从未见过的语言时,传统 Transformer 容易崩溃,而 HoPE 随着层级数量增加表现更好。它还在带噪声召回、压缩和选择性复制任务上更有优势。
“当我们增加层级数量时,模型在这两种语言上的表现会越来越好。”
⚠️ 持续学习既是机会,也是风险
持续学习模型可能更懂用户、更符合个人偏好,也能长期适应用户价值观。但同样,它也会记住大量个人信息,并可能发生对齐漂移、价值观漂移或被对抗性信息污染。
“持续学习这个概念,如果从隐私、对齐这些方向去看,它既是机会,也是巨大的风险。”
🌐 未来也许不是一个超级 AI,而是一个 AI 生态
Ali 对“单一模型赢家通吃”的未来保持警惕。他认为,智能本身没有单一定义,持续学习也没有单一路径。更健康的未来可能是由许多不同类型、不同能力、不同局限的 AI 系统共同构成的生态。
“如果我们有各种各样的智能系统……这总比世界上只有一种智能形式要好。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
