注意力残差:深度学习中的选择性层级聚合

注意力残差:深度学习中的选择性层级聚合

23分钟 ·
播放数10
·
评论数0

这项研究由 Kimi 团队提出,旨在通过名为 Attention Residuals (AttnRes) 的新机制优化大语言模型的架构。传统的残差连接采用固定权重的简单相加,导致随着模型深度增加,早期层的贡献会被不断稀释,且隐藏状态规模不受控制地增长。AttnRes 通过引入内容相关的注意力机制取代了固定累加,允许每一层根据输入动态地从之前的所有层中选择性地提取信息。为了解决在大规模训练中的内存和通信压力,研究者进一步设计了 Block AttnRes 变体,将层划分为块并进行块级聚合,从而在保持高性能的同时显著降低开销。实验表明,该方案不仅能使梯度分布更均匀并抑制输出值膨胀,还在多项下游推理与数学任务中取得了超越基准模型的表现。