Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Attention Residuals
Summary
虽然带有 PreNorm 的残差连接是现代大模型(LLM)的标准配置,但它采用固定单位权重累加各层输出。这种均匀聚合会导致隐藏状态随着深度增加而出现不受控的增长,从而逐渐稀释(dilution)了每一层的贡献。
为了解决这一问题,我们提出了 Attention Residuals (AttnRes),通过学习到的、依赖输入的权重来动态选择性地聚合之前的层。
核心技术方案
注意力残差 (AttnRes)
机制:将固定的加法累加替换为对前面所有层输出的 Softmax 注意力机制。
优势:允许模型根据当前输入,自主决定哪些历史信息更重要,从而实现跨深度的选择性聚合。
分块优化 (Block AttnRes)
挑战:在超大规模模型中,对之前所有层进行注意力计算会带来巨大的内存和通信开销。
方案:将各层划分为块(Blocks),仅在块级表示上进行注意力操作。
工程实现:结合缓存式流水线通信和两阶段计算策略,使其成为标准残差连接的无缝替换(drop-in replacement),且额外开销极小。
实验与应用结果
一致的扩展性:扩展定律(Scaling Law)实验确认,AttnRes 在不同模型规模下均表现出稳定的性能提升。
解决稀释问题:消融实验证明了“内容相关深度选择”的有效性。AttnRes 缓解了 PreNorm 带来的稀释效应,使输出量级和梯度分布在不同深度上更加均匀。
在大规模场景中的验证:
我们将 AttnRes 集成到了 Kimi Linear 架构(总参数 48B,激活参数 3B)中。
在 1.4 万亿(1.4T)Token 上进行预训练。
结果:在所有评估的任务中,模型下游性能均显著提升。
总结: AttnRes 改变了深度学习模型“简单堆叠”层的传统方式,通过引入纵向维度上的注意力机制,让模型能够更聪明地管理随着深度增加而累积的信息。
原文链接:arxiv.org

