Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
今天的主题是:
mHC: Manifold-Constrained Hyper-Connections
Summary
近年来,以 Hyper-Connections(HC) 为代表的研究,通过扩展残差流的宽度并多样化连接模式,对过去十年中广泛采用的残差连接范式进行了拓展。尽管这种多样化带来了显著的性能提升,但它从根本上破坏了残差连接所固有的恒等映射(identity mapping)属性,从而导致严重的训练不稳定性和可扩展性受限,并且还引入了显著的内存访问开销。
为了解决这些问题,我们提出了 流形约束的 Hyper-Connections(Manifold-Constrained Hyper-Connections,mHC),这是一种通用框架:通过将 HC 的残差连接空间投影到特定流形上,以恢复恒等映射属性;同时结合严格的系统级优化,以确保整体效率。
大量实证实验表明,mHC 能够有效支持大规模训练,在带来可观性能提升的同时,展现出更优的可扩展性。我们期待 mHC 作为 HC 的一种灵活且实用的扩展,能够促进对拓扑结构化网络架构设计的更深入理解,并为基础模型的演进指明富有前景的方向。
原文链接:arxiv.org

