【第511期】深度增量学习：广义残差连接与几何变换映射

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

Deep Delta Learning

Summary

深度残差网络的有效性依赖于恒等映射的捷径连接（identity shortcut connection）。尽管这种机制缓解了梯度消失问题，但其对特征变换施加了严格的加性归纳偏置（strictly additive inductive bias），从而限制了网络对复杂隐状态转移的建模能力。

在本文中，我们提出了 Deep Delta Learning（DDL），将原本固定的恒等映射捷径推广为一个可学习的、依赖状态的线性算子。该算子被称为 Delta Operator，其形式为单位矩阵的秩 1 扰动：

A(X)=I−β(X)k(X)k(X)⊤

其中，k(X) 是一个单位方向向量，β(X)β(X) 是一个标量门控参数。

我们通过谱分析（spectral analysis）表明，β(X)β(X) 可以在以下三种情形之间连续插值：

恒等映射（Identity）：β=0

正交投影（Orthogonal Projection）：β=1

Householder 反射（Householder Reflection）：β=2

此外，我们将残差更新重写为一种同步的秩 1 增量写入（synchronized rank-1 delta write）：参数 ββ 同时控制当前 kk-分量的移除幅度，以及新的 kk-分量的注入幅度。这种统一表述使得模型能够沿着一个数据依赖方向，对捷径连接的谱性质进行显式控制，同时保持训练过程的稳定性。

在实证实验中，我们将 Transformer 中的残差加法替换为 DDL 机制，结果表明：在语言建模任务上，验证损失（validation loss）与困惑度（perplexity）均得到改善，下游评测准确率也有所提升；在扩展状态维度（expanded-state setting）条件下，性能增益更为显著。

原文链接：arxiv.org