机器记忆的革命 | 叔读DeepSeek最先研究Engram叔的赛博大乱炖

机器记忆的革命 | 叔读DeepSeek最先研究Engram

19分钟 ·
播放数5
·
评论数0

本次研究DeepSeek最新的研究成果,介绍一下 Engram,一种为大语言模型设计的条件记忆模块,旨在解决传统 Transformer 模型在处理静态知识检索时效率低下的问题。通过引入基于 $N$-gram 词嵌入的 O(1) 复杂度查表机制,该架构将常态化的知识提取从复杂的神经计算中解脱出来。研究团队发现了优化神经计算与静态记忆配比的 U 型缩放法则,并据此构建了拥有 270 亿参数的混合模型。实验证明,Engram 在通用推理、数学代码以及长文本处理等任务上显著优于同等规模的 MoE 基座。该技术支持预取与异步传输,能将庞大的参数表存储于主机内存并保持极低的推理开销,为构建下一代高效稀疏模型提供了新思路。