Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Arithmetic in the Wild: Llama uses Base-10 Addition to Reason About Cyclic Concepts
Summary
表征中的结构是否意味着计算中的结构?
我们研究了 Llama-3.1-8B 如何在循环概念(cyclic concepts,例如“八月之后六个月是哪个月?”)上进行推理。
尽管 Llama-3.1-8B 对这些概念的表征在空间上呈现出循环结构,但我们发现,该模型并没有直接在循环概念的周期内(例如月份的周期为 12)计算模加法(modular addition)。相反,它跨任务复用了一种通用的加法机制,其运行完全独立于特定概念的几何结构:
十进制求和:它首先使用标准的十进制(基数 10)加法计算两个输入的和(例如:6 + 8(八月)= 14)。
空间映射:然后,它将这个计算结果映射回循环概念空间(例如:14 -> 二月)。
我们表明,Llama-3.1-8B 使用任务无关的傅里叶特征(Fourier features)来计算这些和。事实上,这些特征的周期遵循的是标准的十进制加法规律(例如 2、5 和 10),而不是循环概念本身的周期(例如月份的 12)。
此外,我们还在第 18 层 MLP 中确定了一组跨所有任务复用的稀疏神经元(共 28 个,约占该层 MLP 的 0.2%)。这组神经元可以被划分为若干互不相交的簇(clusters),每个簇各自负责计算一个具有不同周期的傅里叶特征之和。
我们的工作强调了因果抽象(causal abstraction)与特征几何(feature geometry)之间的相互作用,如何能够深化我们对语言模型(LMs)的机理理解(mechanistic understanding)。
原文链接:arxiv.org

