【第619期】Learning Mechanics:大模型学习力学Seventy3

【第619期】Learning Mechanics:大模型学习力学

21分钟 ·
播放数2
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

There Will Be a Scientific Theory of Deep Learning

Summary

在这篇论文中,我们论证了深度学习科学理论正在浮现。我们所说的理论,是指一种能够表征神经网络训练过程、隐藏表示、最终权重以及性能等重要属性与统计特征的理论。我们汇集了当前深度学习理论研究的主要方向,并确定了指向该理论的五个不断壮大的研究领域:

  • (a) 可解的理想化设置:为现实系统中的学习动力学提供直观理解;

  • (b) 可微解的极限(可积极限):揭示对基本学习现象的深入洞察;

  • (c) 简单的数学定律:捕捉重要的宏观可观测属性;

  • (d) 超参数理论:将超参数与训练过程的其他部分解耦,从而留下更简单的系统;

  • (e) 跨系统和设置共享的通用行为:阐明哪些现象需要做出解释。

综合来看,这些研究领域具有某些共同的宏观特征:它们关注训练过程的动力学;它们主要寻求描述粗粒度的聚合统计数据;并且它们强调可证伪的定量预测。我们认为,这种正在浮现的理论最好被视为一种“学习过程的力学”,并建议将其命名为学习力学(Learning mechanics)。

我们讨论了这种力学视角与构建深度学习理论的其他方法(包括统计学和信息论视角)之间的关系。特别是,我们预见到了学习力学与机械可解释性(Mechanistic interpretability)之间存在着共生关系。

我们还审查并回应了关于基础理论不可能实现或不重要的常见论点。最后,我们描绘了学习力学中重要的开放方向,并为初学者提供了建议。我们在 this http URL 上提供了更多的入门材料、视角和开放问题。

原文链接:arxiv.org