【第506期】深度序列模型中的几何记忆谜题

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

今天的主题是：

Deep sequence models tend to memorize geometrically; it is unclear why.

Summary

人们通常认为，深度序列模型主要以联想记忆（associative memory）的形式存储原子事实，即对共同出现实体的暴力式查找。我们识别出了一种截然不同的原子事实存储形式，并将其称为几何记忆（geometric memory）。在这种机制下，模型合成了能够编码所有实体之间全局新关系的嵌入表示，甚至包括在训练过程中从未共同出现的实体对。

这种存储方式极具威力：例如，我们展示了它如何将一个涉及 ℓ 次复合的困难推理任务，转化为一个易于学习的一步导航任务。

基于这一现象，我们提炼出神经嵌入几何的一些基础性特征，而这些特征并不容易被解释。我们认为，相较于对局部关联的查找，这种几何结构的出现，不能被简单地归因于常见的监督信号、模型架构或优化压力。反直觉的是，即便这种几何结构比暴力查找更为复杂，模型依然会学习到它。

随后，通过分析其与 Node2Vec 的联系，我们表明，这种几何结构源自一种谱偏置（spectral bias）；与现有主流理论相反，这种偏置即使在缺乏多种外在压力的情况下，也会自然地产生。这一分析还向实践者指出：仍然存在明显的提升空间，可以使 Transformer 的记忆机制呈现出更强的几何性。

我们希望，对参数化记忆的几何视角能够促使研究者重新审视那些在知识获取、容量、发现以及遗忘等领域中长期占据主导地位的默认直觉。

原文链接：arxiv.org