DeepSeek 稀疏注意力机制 (NSA & DSA),2025

DeepSeek 稀疏注意力机制 (NSA & DSA),2025

8分钟 ·
播放数20
·
评论数0

了解大模型行业的人应该知道,作为现代LLM基石的Transformer架构,其核心自注意力(Self-Attention)机制的计算复杂度与输入token序列长度(L)呈二次方关系(O(L²)),这构成了严峻的计算和显存瓶颈。当token序列长度加倍时,计算量和显存需求会增长约四倍,极大地限制了模型能够有效处理的上下文长度,成为制约技术发展的关键痛点。

DeepSeek最近发布了最新的V3.2模型及其技术报告,其中有一个非常值得关注的点在于他们将稀疏注意力机制正式应用到了模型训练中,提出了DeepSeek稀疏注意力(DeepSeek Sparse Attention, DSA github.com

如果追根溯源的话,早在2025年2月 DeepSeek 团队就发表了一篇名为Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention的论文(arxiv.org),论文中提出了 NSA (Native Sparse Attention),这是一种原生可训练的稀疏注意力机制。它通过“分层压缩”和“精细选择”策略,在保持全局上下文感知的同时,显著降低了长文本处理的计算成本。

在此理论基础之上,最近DeepSeek 在 DeepSeek-V3.2 模型中正式实装了这一机制,并将其命名为 DSA ,V3.2的技术报告中详细描述了 DSA 在 V3.2 中的具体工程实现,即使用 Lightning Indexer (闪电索引器) 来动态筛选 Token,将长上下文的计算复杂度从 O(L²) 降低到近似O(kL)。

如果你需要快速理解 DSA 是如何工作的,这里有一个简要总结:

  • 痛点解决: 传统的注意力机制(Attention)需要让每个字都去“看”文中其他所有的字(全关注),字数一多计算量就爆炸(平方级增长)。
  • DSA 的做法:
    1. 闪电索引 (Lightning Indexer): 像是有一个快速的“图书管理员”,先粗略扫描一遍,找出哪些内容对当前的任务最重要。
    2. 动态稀疏 (Dynamic Sparsity): 模型不再“全关注”,而是只精细计算那些被管理员选出来的、最重要的 Token(Top-k)。
    3. 效果: 极大地降低了长文本(Long Context)推理时的显存占用和计算时间,同时精度损失极小。

下面我们就基于这两份核心技术文档,对DSA机制进行深度解析,阐述其如何从理论创新(NSA)走向高效的工程实践(DSA),并最终在保持甚至超越全注意力模型性能的同时,实现了训练和推理效率的巨大飞跃。