Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
Deep sequence models tend to memorize geometrically; it is unclear why.
Summary
人们通常认为,深度序列模型主要以联想记忆(associative memory)的形式存储原子事实,即对共同出现实体的暴力式查找。我们识别出了一种截然不同的原子事实存储形式,并将其称为几何记忆(geometric memory)。在这种机制下,模型合成了能够编码所有实体之间全局新关系的嵌入表示,甚至包括在训练过程中从未共同出现的实体对。
这种存储方式极具威力:例如,我们展示了它如何将一个涉及 ℓ 次复合的困难推理任务,转化为一个易于学习的一步导航任务。
基于这一现象,我们提炼出神经嵌入几何的一些基础性特征,而这些特征并不容易被解释。我们认为,相较于对局部关联的查找,这种几何结构的出现,不能被简单地归因于常见的监督信号、模型架构或优化压力。反直觉的是,即便这种几何结构比暴力查找更为复杂,模型依然会学习到它。
随后,通过分析其与 Node2Vec 的联系,我们表明,这种几何结构源自一种谱偏置(spectral bias);与现有主流理论相反,这种偏置即使在缺乏多种外在压力的情况下,也会自然地产生。这一分析还向实践者指出:仍然存在明显的提升空间,可以使 Transformer 的记忆机制呈现出更强的几何性。
我们希望,对参数化记忆的几何视角能够促使研究者重新审视那些在知识获取、容量、发现以及遗忘等领域中长期占据主导地位的默认直觉。
原文链接:arxiv.org

