【第619期】Learning Mechanics：大模型学习力学

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

There Will Be a Scientific Theory of Deep Learning

Summary

在这篇论文中，我们论证了深度学习科学理论正在浮现。我们所说的理论，是指一种能够表征神经网络训练过程、隐藏表示、最终权重以及性能等重要属性与统计特征的理论。我们汇集了当前深度学习理论研究的主要方向，并确定了指向该理论的五个不断壮大的研究领域：

(a) 可解的理想化设置：为现实系统中的学习动力学提供直观理解；
(b) 可微解的极限（可积极限）：揭示对基本学习现象的深入洞察；
(c) 简单的数学定律：捕捉重要的宏观可观测属性；
(d) 超参数理论：将超参数与训练过程的其他部分解耦，从而留下更简单的系统；
(e) 跨系统和设置共享的通用行为：阐明哪些现象需要做出解释。

综合来看，这些研究领域具有某些共同的宏观特征：它们关注训练过程的动力学；它们主要寻求描述粗粒度的聚合统计数据；并且它们强调可证伪的定量预测。我们认为，这种正在浮现的理论最好被视为一种“学习过程的力学”，并建议将其命名为学习力学（Learning mechanics）。

我们讨论了这种力学视角与构建深度学习理论的其他方法（包括统计学和信息论视角）之间的关系。特别是，我们预见到了学习力学与机械可解释性（Mechanistic interpretability）之间存在着共生关系。

我们还审查并回应了关于基础理论不可能实现或不重要的常见论点。最后，我们描绘了学习力学中重要的开放方向，并为初学者提供了建议。我们在 this http URL 上提供了更多的入门材料、视角和开放问题。

原文链接：arxiv.org