本课聚焦提升优化效率的进阶算法。核心介绍了动量法，通过累积历史梯度平滑搜索轨迹并加速收敛。详细阐述了 Adam 优化器，结合一阶和二阶矩估计实现参数级自适应学习率。最后强调了超参数搜索在模型拟合中的“艺术”属性。
第11课完整讲义：https://zhuanlan.zhihu.com/p/2001311882972263439
00:00 开篇语
01:22 动量就是指数加权平均
04:40 Nesterov 加速动量
06:26 单一学习率的困境
07:35 归一化梯度
11:13 Adam 自适应矩估计
15:47 训练的艺术：超参数搜索
17:02 第6章总结
19:12 Notes 部分
21:22 习题
23:10 结束语

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

教科书《Understanding Deep Learning， Simon J.D. Prince，May 29, 2025》

由 Simon J.D. Prince 编写，专注于深度学习的核心思想而非编程实操。内容涵盖监督学习、各类生成模型（如 GAN、扩散模型）、强化学习及 AI 伦理。该书旨在帮助读者通过掌握基本原理，灵活应对各种新场景。

AI_SUMMARIZE_EPISODE

理解深度学习

《理解深度学习》第11课-优化算法进阶：动量、Adam与超参数的艺术

695b1aac8fedd92f48a53b2d/lrSAuU2HPw1umlDXp12uYRQeADvf.m4a