这份研究报告介绍了一种名为 MSA (Memory Sparse Attention) 的创新型稀疏注意力框架,旨在突破大语言模型在超长上下文处理上的限制。该技术通过文档级 RoPE 和 KV 缓存压缩,成功将模型的有效记忆容量提升至 1 亿标记 (100M tokens),且性能损耗极低。MSA 采用端到端的可训练架构,具备线性计算复杂度,显著优化了推理效率并降低了硬件门槛。此外,研究引入的存储交织 (Memory Interleave) 机制有效增强了模型在处理复杂多跳推理任务时的逻辑整合能力。实验数据表明,该模型在长文本问答和压力测试中的表现全面超越了现有的 RAG 系统及传统长上下文模型。

MSA:面向亿级超长文本的可扩展端到端记忆模型
18分钟 ·
5·
1
Mars98563
2026.3.20
0
00:01 谢谢。