【第511期】深度增量学习:广义残差连接与几何变换映射Seventy3

【第511期】深度增量学习:广义残差连接与几何变换映射

20分钟 ·
播放数1
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你有自己的论文要解读,或者推荐论文,请留言。

今天的主题是:

Deep Delta Learning

Summary

深度残差网络的有效性依赖于恒等映射的捷径连接(identity shortcut connection)。尽管这种机制缓解了梯度消失问题,但其对特征变换施加了严格的加性归纳偏置(strictly additive inductive bias),从而限制了网络对复杂隐状态转移的建模能力。

在本文中,我们提出了 Deep Delta Learning(DDL),将原本固定的恒等映射捷径推广为一个可学习的、依赖状态的线性算子。该算子被称为 Delta Operator,其形式为单位矩阵的秩 1 扰动:

A(X)=I−β(X)k(X)k(X)⊤

其中,k(X) 是一个单位方向向量,β(X)β(X) 是一个标量门控参数。

我们通过谱分析(spectral analysis)表明,β(X)β(X) 可以在以下三种情形之间连续插值:

  • 恒等映射(Identity):β=0
  • 正交投影(Orthogonal Projection):β=1
  • Householder 反射(Householder Reflection):β=2

此外,我们将残差更新重写为一种同步的秩 1 增量写入(synchronized rank-1 delta write):参数 ββ 同时控制当前 kk-分量的移除幅度,以及新的 kk-分量的注入幅度。这种统一表述使得模型能够沿着一个数据依赖方向,对捷径连接的谱性质进行显式控制,同时保持训练过程的稳定性。

在实证实验中,我们将 Transformer 中的残差加法替换为 DDL 机制,结果表明:在语言建模任务上,验证损失(validation loss)与困惑度(perplexity)均得到改善,下游评测准确率也有所提升;在扩展状态维度(expanded-state setting)条件下,性能增益更为显著。

原文链接:arxiv.org