Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Attention Residuals

Summary

虽然带有 PreNorm 的残差连接是现代大模型（LLM）的标准配置，但它采用固定单位权重累加各层输出。这种均匀聚合会导致隐藏状态随着深度增加而出现不受控的增长，从而逐渐稀释（dilution）了每一层的贡献。

为了解决这一问题，我们提出了 Attention Residuals (AttnRes)，通过学习到的、依赖输入的权重来动态选择性地聚合之前的层。

注意力残差 (AttnRes)
- 机制：将固定的加法累加替换为对前面所有层输出的 Softmax 注意力机制。
- 优势：允许模型根据当前输入，自主决定哪些历史信息更重要，从而实现跨深度的选择性聚合。
分块优化 (Block AttnRes)
- 挑战：在超大规模模型中，对之前所有层进行注意力计算会带来巨大的内存和通信开销。
- 方案：将各层划分为块（Blocks），仅在块级表示上进行注意力操作。
- 工程实现：结合缓存式流水线通信和两阶段计算策略，使其成为标准残差连接的无缝替换（drop-in replacement），且额外开销极小。

一致的扩展性：扩展定律（Scaling Law）实验确认，AttnRes 在不同模型规模下均表现出稳定的性能提升。
解决稀释问题：消融实验证明了“内容相关深度选择”的有效性。AttnRes 缓解了 PreNorm 带来的稀释效应，使输出量级和梯度分布在不同深度上更加均匀。
在大规模场景中的验证：
- 我们将 AttnRes 集成到了 Kimi Linear 架构（总参数 48B，激活参数 3B）中。
- 在 1.4 万亿（1.4T）Token 上进行预训练。
- 结果：在所有评估的任务中，模型下游性能均显著提升。

总结： AttnRes 改变了深度学习模型“简单堆叠”层的传统方式，通过引入纵向维度上的注意力机制，让模型能够更聪明地管理随着深度增加而累积的信息。

原文链接：arxiv.org