Kimi Linear论文核心信息
**论文标题**
*Kimi Linear: An Expressive, Efficient Attention Architecture*
**下载链接**
- 预训练模型与代码：[Hugging Face开源仓库](https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct)
- KDA内核实现：[GitHub仓库](https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda)
**摘要**
Kimi Linear是一种混合线性注意力架构，首次在公平比较中全面超越传统全注意力机制。其核心是Kimi Delta Attention（KDA）模块，通过细粒度门控机制和优化的Diagonal-Plus-LowRank（DPLR）转换矩阵，实现了有限状态RNN内存的高效利用。模型以480亿总参数和30亿激活参数配置，采用3:1比例的KDA与全注意力混合架构，在1.4万亿训练token下：
- **性能优势**：在MMLU-Pro（51.0分）、RULER长上下文任务（84.3分）等场景中超越全注意力基线；
- **效率突破**：KV缓存占用减少75%，100万token上下文解码吞吐量提升6倍（1.84ms/token vs 11.48ms/token）。
该架构可作为全注意力的即插即用替代方案，为超长上下文任务（如代码库分析、多轮工具交互）提供高效解决方案。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AIGC 深一度

深入解读Ai前沿。
精选论文会有文字版解读
发布在公众号 [AIGC 深一度]

视频版本欢迎关注 小红书 视频号 B站 同名账号 [AIGC深一度]



AI_SUMMARIZE_EPISODE

Kimi Linear：混合线性注意力架构深度解析

68f58b4948df05a0fae625d6/lk3PucsBTNMkXG4CmFWodjxOwHNz.m4a