这篇研究论文介绍了**“电路追踪”方法,旨在揭示大型语言模型内部的计算机制。作者通过构建一个“替代模型”,用更易于解释的“跨层转码器”近似原始模型的多层感知器,从而生成模型的“归因图”。这些归因图描述了模型在特定提示下,信息如何通过不同“特征”进行流动的计算步骤序列**。
论文详细阐述了归因图的构建、特征的理解和标注(包括将相关特征聚合成**“超节点”),并通过干预实验验证了图中提出的机制。此外,文章还讨论了“全局权重”的概念,以期理解跨多个提示的特征交互,并指出了当前方法的局限性,例如忽略注意力电路和重建误差**。
通过对首字母缩略词生成和简单加法等案例研究,作者展示了如何识别模型内部的启发式策略和并行计算路径。这项工作为理解复杂的语言模型行为奠定了基础,并为后续在更先进模型(如 Claude 3.5 Haiku)上的应用铺平了道路,以探索其在多步推理、规划和幻觉等方面的**“生物学”**机制。
