Kimi Linear论文核心信息
**论文标题**
*Kimi Linear: An Expressive, Efficient Attention Architecture*
**下载链接**
- 预训练模型与代码:[Hugging Face开源仓库](huggingface.co)
- KDA内核实现:[GitHub仓库](github.com)
**摘要**
Kimi Linear是一种混合线性注意力架构,首次在公平比较中全面超越传统全注意力机制。其核心是Kimi Delta Attention(KDA)模块,通过细粒度门控机制和优化的Diagonal-Plus-LowRank(DPLR)转换矩阵,实现了有限状态RNN内存的高效利用。模型以480亿总参数和30亿激活参数配置,采用3:1比例的KDA与全注意力混合架构,在1.4万亿训练token下:
- **性能优势**:在MMLU-Pro(51.0分)、RULER长上下文任务(84.3分)等场景中超越全注意力基线;
- **效率突破**:KV缓存占用减少75%,100万token上下文解码吞吐量提升6倍(1.84ms/token vs 11.48ms/token)。
该架构可作为全注意力的即插即用替代方案,为超长上下文任务(如代码库分析、多轮工具交互)提供高效解决方案。

