【第506期】深度序列模型中的几何记忆谜题Seventy3

【第506期】深度序列模型中的几何记忆谜题

14分钟 ·
播放数2
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

今天的主题是:

Deep sequence models tend to memorize geometrically; it is unclear why.

Summary

人们通常认为,深度序列模型主要以联想记忆(associative memory)的形式存储原子事实,即对共同出现实体的暴力式查找。我们识别出了一种截然不同的原子事实存储形式,并将其称为几何记忆(geometric memory)。在这种机制下,模型合成了能够编码所有实体之间全局新关系的嵌入表示,甚至包括在训练过程中从未共同出现的实体对。

这种存储方式极具威力:例如,我们展示了它如何将一个涉及 ℓ 次复合的困难推理任务,转化为一个易于学习的一步导航任务

基于这一现象,我们提炼出神经嵌入几何的一些基础性特征,而这些特征并不容易被解释。我们认为,相较于对局部关联的查找,这种几何结构的出现,不能被简单地归因于常见的监督信号、模型架构或优化压力。反直觉的是,即便这种几何结构比暴力查找更为复杂,模型依然会学习到它。

随后,通过分析其与 Node2Vec 的联系,我们表明,这种几何结构源自一种谱偏置(spectral bias);与现有主流理论相反,这种偏置即使在缺乏多种外在压力的情况下,也会自然地产生。这一分析还向实践者指出:仍然存在明显的提升空间,可以使 Transformer 的记忆机制呈现出更强的几何性

我们希望,对参数化记忆的几何视角能够促使研究者重新审视那些在知识获取、容量、发现以及遗忘等领域中长期占据主导地位的默认直觉。

原文链接:arxiv.org