143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进晚点聊 LateTalk

143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进

87分钟 ·
播放数12319
·
评论数89

「不仅是提效,线性注意力在数据受限情况下的更多潜力。」

今年初的两期节目(103、104 期)里也讨论过注意力机制,这是大语言模型的核心机制。

9 月 和 10 月,阿里和 Kimi 都发布了相关进展,而且都用到了一个线性注意力成果,DeltaNet。

本期嘉宾,就是 DeltaNet 的核心贡献者之一,现在在 MIT 读博士的杨松琳,她也是线性注意力开源小组 FLA 的发起者。

这期节目在 25 分钟以前很硬核,松琳讲了线性注意力和 DeltaNet 的发展脉络,为何 21 年刚被提出时没引起太多注意,后来怎么进化的。

25 分钟以后,是关注 AI 比较多的文科生,比如我也能完全跟上的部分。我们讨论了,重新去做 full attention 的 MiniMax,以及未来要在旗舰模型上用线性注意力的 Kimi 和阿里的不同选择;线性注意力的优劣势;以及一些脑洞——如果算力无限,还需要线性注意力?松琳给了很有启发的回答。

最后半小时,松琳分享了她作为研究员,怎么习得交叉技能的,怎么开始发起FLA小组等成长经历。

本期嘉宾:杨松琳,MIT 博士生在读,DeltaNet 贡献者
本期主播:程曼祺,《晚点 LatePost》科技报道负责人

时间线跳转:

-DeltaNet 的诞生演进与近期动向
02:07 注意力机制是什么?
04:21 DeltaNet 的提出,用 Delta Rule 来增强 in-context retrieval
09:41 近年的改进主要是模型架构,而非“更新规则”
14:25 阿里 Qwen 团队 apple to apple 比较几种线性注意力混合方式;Kimi Linear 对 Gated Delta 的具体改进
17:00 更新规则和模型架构改进的区别:更新规则是在算子层面“动刀”
19:50 算法出身,自学 Infra;学习 Hazy Research Group 的风格
23:28 Qwen 和 Kimi 大概率在下一代旗舰模型用线性注意力,而 MiniMax 用回 full attention;DeepSeek 目前释放的改进都是“稀疏注意力”
37:07 稀疏注意力 vs 线性注意力潜力对比
39:40 即使算力无限,线性注意力仍有价值,因为它在有限数据中的学习效率更高,而高质量数据正是当前瓶颈
42:28 线性注意力在状态追踪上也可能有效果优势,而状态追踪对 Agentic 很重要
47:33 线性注意力的“归纳偏见”和 The Bitter Lesson:先验与 scalable 并不矛盾
49:30 回应 RWKV(原始智能)彭博:从未说发明 DeltaNet,一直在给 Schmidhuber 署名

-Householder 与 DeltaNet 的联想,像运营产品一样运营技术社区
51:51 关注注意力改进的起点,数学知识、Infra,交叉能力怎么积累?
58:48 发现 Hoseholder 累乘和 DeltaNet 关联的过程
01:02:44 AI 何时能像人这样产生联想?——Prompt 合适,大模型应该能独立发现这个算法
01:04:11 FLA 小组的产生,受 Tri Dao 做 FlashAttention 的启发,像运营产品一样运营技术社区;Kimi 从 FLA 小组招募了线性注意力研究者

-注意力改进的未来趋势
01:11:24 稀疏注意力的改进,DeepSeek 年初 NSA 到最近 DSA 的变化
01:16:44 线性注意力的改进,从线性混合全注意力,到线性混合稀疏注意力(比如混合 DeepSeek DSA 和 Kimi KDA 😀
01:21:10 更广泛来说,关注何种模型演进?——持续学习

相关链接:
图文版:《再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客》

晚点聊 103 期:《用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进》
晚点聊 104 期:《我给线性注意力找“金主”,字节 say No,MiniMax say Yes》

剪辑制作:Nick

附录,本期提到的一些论文(更多具体名词解释,见本期文字版):
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
Linear Transformers Are Secretly Fast Weight Programmers
Parallelizing Linear Transformers with the Delta Rule over Sequence Length
Gated Linear Attention Transformers with Hardware-Efficient Training
Recurrence-Complete Frame-based Action Models

本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
曼祺_MatchQ
曼祺_MatchQ
2025.12.01
置顶
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg
(shownotes 里也已更新
霜雪明:最需要文字版的一期
冬阳Sunshine:这声音实在听不下去,第三次尝试了,还是不行
梅岩
梅岩
2025.12.01
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
VV4eito:实在很难忽略,没听下去
Tony1783:你比我厉害两分钟🤣
5条回复
彪悍的女人没有情绪哈哈哈哈哈
叶子泡泡
叶子泡泡
2025.12.04
之前听了松琳大佬的两期播客,罕见的一流研究员,三言两语就能揭示各路方法的本质,超级惊喜,能听到是我的福气。但一看评论区惊呆了,不是探讨知识而是评价声音是否让人舒服。
panzhixiang
panzhixiang
2025.12.01
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
天晴人开心:我最讨厌的一种声音。!
榛子:听不下去了
SuperFang
SuperFang
2025.12.01
嘉宾情绪太down了,效果不好。
曼祺_MatchQ
:
只听声音会这样吗?我和她视频时感觉挺好的(可能缺一个视觉模态带来的信息)
一枚幸运硬币:我觉的还好,因为周围有人也是类似的,其实是有情绪的
陀佛
陀佛
2025.12.01
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
xstarcity
xstarcity
2025.12.01
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
凯蒂拉克慢悠悠:哈哈哈
子洋Eric:适合晚上听,感觉马上就要睡着了
Joes东
Joes东
2025.12.01
这种风格不太适合播客 确实有点听不下去😂
神经蛙_OgdT
神经蛙_OgdT
2025.12.01
嘉宾讲话特别酷~👍👍👍
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
曼祺_MatchQ
:
你听到她后面怎么想到 DeltaNet 和 householder 累乘的关联,还有怎么喜欢上线形代数,我自己是能感到很典型的研究者的 passion。音色和语调上,每个人确实不一样。
有魚三四:1:06:54 這一段的確可以感受到她對研究的熱情與投入,但也明白了楊的聲音語調就是這樣。很多天才都有其特別的特色,倒也沒什麼。 仔細聽內容是很有見解與對關聯技術的深刻耕耘,注意力在內容上也就沒那麼在意語調。另外也佩服主播曼祺能跟上,也不錯的一期。
曼祺_MatchQ
曼祺_MatchQ
2025.12.01
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。

前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众;

25 分钟之后,我们讨论了当前线性注意力的一些特点:
-为什么都要混全注意力?为何还较少用到旗舰模型上?
-Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择?
-以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。

今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
gpCigqFeC52
gpCigqFeC52
2025.12.03
来了
HD191645z:又看到大佬了
HD191645z:在别的评论区经常遇到大佬
阿互
阿互
2025.12.01
嘉宾的声音透漏着一种天才气质😏
monkeyfu
monkeyfu
2025.12.04
非常好的节目,嘉宾和主持人辛苦了。 我有一段时间没有关注线性注意力机制了,这期节目让我catch-up了很多工作,节省了很多时间。 内容干活满满,一边听一边思考,完全不在乎听感。 隔壁张小珺那期节目也很好,这里主持人曼祺的提问更有深度和切入要点。不过张小珺那边基本上总能约到靠谱的嘉宾。 至于RWKV社区,他们的氛围确实一言难尽。。。
曼祺_MatchQ
:
我在朋友圈分享这期播客后,RWKV 的盆友又留言表达了不满😖 这期的文字版开头我们有介绍 DeltaNet 的提出历程,这期播客也提到了,是 Schmidhuber 最初提出了DeltaNet(给到 Credit!!!😄
monkeyfu:不用理他们,话不投机半句多~😀
章鲤
章鲤
2025.12.02
看评论好多人不喜欢嘉宾声音,我倒是觉得挺好听的
HD637887t
HD637887t
2025.12.11
sonta姐姐和rwkv确实一对苦命鸳鸯😭()
starryduoo
starryduoo
2025.12.01
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解
注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。
不同的流派就是不同角色不同的世界观,
角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。
角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。
角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
伊利丹怒风:挺好,稀疏是筛选(尽量精准),线性是压缩(尽量无损),路线都是合理的
xstarcity
xstarcity
2025.12.01
1:16:19 关于sparse attention 的 KV CACHE 压缩方向,也有有不少论文。

影响力最大的是Double Sparsity: Post-Training Sparse Attention with Double Sparsity。理由:最早发表(2024-08),已有 ~5-7 次引用(被后续 KV 压缩论文引用,如 HashAttention ),并在 Hugging Face Papers 等平台广泛讨论。

发表机构最好的是Double Sparsity 和 RetrievalAttention 并列。Double Sparsity 来自 UC Berkeley(顶尖 AI 研究机构,作者包括 Ion Stoica 等 RISELab 核心成员);RetrievalAttention 来自 Microsoft Research(工业顶尖,作者超 10 人,强调工程落地)。

这些论文多采用 token eviction(基于注意力分数或重要性度量驱逐低贡献 KV)、low-rank/sparse projection(e.g., 潜在空间或字典学习表示 KV)、或 retrieval-based 方法(动态检索而非全保留)。Sparse attention 确保只计算关键 query-key 对,避免全量 softmax。

不完全保留 KV 可能导致累积误差(如上下文丢失),解决方案包括周期性稠密修正(e.g., ReSA)或回顾性更新(RetroAttention)。压缩率越高,准确率损失越大,但多数方法在 <1% 损失下实现 4-6 倍内存节省。