Kimi研究团队：Attention Residuals（注意力残差） , 2026

昨晚，Kimi 团队发布了一篇可能改写大模型架构范式的技术报告《Attention Residuals》（github.com），用动态注意力机制替换了大模型中沿用十年的标准残差连接。这项工作引发了 AI 圈的广泛关注——Andrej Karpathy 评价说“我们还没把‘Attention is All You Need’按字面意思理解透”，马斯克也留言称赞“Impressive work”。

传统残差连接本质上是固定权重的线性累加，所有层的输出以相同分量挤进主干路径，没有选择机制。这导致深层网络出现信息稀释、梯度分布不均、有效深度受限等问题。Kimi 团队提出的 Attention Residuals（AttnRes）打破了这一僵局：把深度轴变成可检索的特征空间，让模型根据当前输入主动调取之前的关键表征，而非被动接收所有历史信息。

为了工程落地，团队开发了分块注意力残差（Block AttnRes），将显存复杂度降到块数量级别，推理延迟开销控制在 2% 以内。在 480 亿参数的 Kimi Linear 架构上，用 1.4 万亿 Token 的实验显示：AttnRes 只需基准模型约 80% 的算力就能达到同样效果，相当于自带 1.25 倍算力优势。

值得一提的是，论文一作陈光宇今年 18 岁，加入团队才 5 个月，还是个准高三学生。前 OpenAI 核心研究员 Jerry Tworek 评价：“一切都需要被重新思考，深度学习 2.0 要来了。”

本期播客深入解读这项研究的技术细节、工程实现和对 Scaling Law 的影响，帮助你理解大模型架构演进的这次底层范式创新。