Kimi研究团队:Attention Residuals(注意力残差) , 2026

Kimi研究团队:Attention Residuals(注意力残差) , 2026

6分钟 ·
播放数276
·
评论数0

昨晚,Kimi 团队发布了一篇可能改写大模型架构范式的技术报告《Attention Residuals》(github.com),用动态注意力机制替换了大模型中沿用十年的标准残差连接。这项工作引发了 AI 圈的广泛关注——Andrej Karpathy 评价说“我们还没把‘Attention is All You Need’按字面意思理解透”,马斯克也留言称赞“Impressive work”。

传统残差连接本质上是固定权重的线性累加,所有层的输出以相同分量挤进主干路径,没有选择机制。这导致深层网络出现信息稀释、梯度分布不均、有效深度受限等问题。Kimi 团队提出的 Attention Residuals(AttnRes)打破了这一僵局:把深度轴变成可检索的特征空间,让模型根据当前输入主动调取之前的关键表征,而非被动接收所有历史信息。

为了工程落地,团队开发了分块注意力残差(Block AttnRes),将显存复杂度降到块数量级别,推理延迟开销控制在 2% 以内。在 480 亿参数的 Kimi Linear 架构上,用 1.4 万亿 Token 的实验显示:AttnRes 只需基准模型约 80% 的算力就能达到同样效果,相当于自带 1.25 倍算力优势。

值得一提的是,论文一作陈光宇今年 18 岁,加入团队才 5 个月,还是个准高三学生。前 OpenAI 核心研究员 Jerry Tworek 评价:“一切都需要被重新思考,深度学习 2.0 要来了。”

本期播客深入解读这项研究的技术细节、工程实现和对 Scaling Law 的影响,帮助你理解大模型架构演进的这次底层范式创新。