本研究介绍了一种名为 CANS(Chebyshev-optimized Newton-Schulz) 的新方法,旨在通过利用 Chebyshev 交错定理 优化系数来加速 Newton-Schulz 迭代。这种迭代是计算给定矩阵 正交极分解 的有效方法,因为它主要依赖于矩阵乘法。研究人员通过理论推导了 三阶 Newton-Schulz 迭代 的最优系数,并利用 Remez 算法 计算了更高阶多项式的最优系数。 CANS 方法 在 Muon 优化器 和 Stiefel 流形上的黎曼优化 等深度学习应用中展现出显著的性能提升。通过定制多项式以在特定区间内实现理想行为,CANS 能够平衡精度与计算效率,甚至在缺乏最小奇异值信息的情况下也能有效运行。
Source: <arxiv.org>

