Kimi Linear:混合线性注意力架构深度解析AIGC 深一度

Kimi Linear:混合线性注意力架构深度解析

9分钟 ·
播放数18
·
评论数0

 Kimi Linear论文核心信息

 **论文标题**  
*Kimi Linear: An Expressive, Efficient Attention Architecture* 

 **下载链接**  
- 预训练模型与代码:[Hugging Face开源仓库](huggingface.co)  
- KDA内核实现:[GitHub仓库](github.com)  

**摘要**  
Kimi Linear是一种混合线性注意力架构,首次在公平比较中全面超越传统全注意力机制。其核心是Kimi Delta Attention(KDA)模块,通过细粒度门控机制和优化的Diagonal-Plus-LowRank(DPLR)转换矩阵,实现了有限状态RNN内存的高效利用。模型以480亿总参数和30亿激活参数配置,采用3:1比例的KDA与全注意力混合架构,在1.4万亿训练token下:  
- **性能优势**:在MMLU-Pro(51.0分)、RULER长上下文任务(84.3分)等场景中超越全注意力基线;  
- **效率突破**:KV缓存占用减少75%,100万token上下文解码吞吐量提升6倍(1.84ms/token vs 11.48ms/token)。  
该架构可作为全注意力的即插即用替代方案,为超长上下文任务(如代码库分析、多轮工具交互)提供高效解决方案。