《理解深度学习》第13课-深度学习训练的初始化与实现理解深度学习

《理解深度学习》第13课-深度学习训练的初始化与实现

23分钟 ·
播放数16
·
评论数0

本课聚焦参数初始化与训练实践。重点推导了 **He 初始化**,旨在维持传播过程中激活值与梯度的方差稳定,从而有效解决梯度消失与爆炸问题。此外,还介绍了内存优化技术及支持超大模型训练的分布式并行方案。

第13课完整讲义:zhuanlan.zhihu.com

00:00 开篇语

00:36 初始化挑战:梯度消失和爆炸

03:43 He 初始化 

12:03 示例训练代码

17:04 反向传播的历史

17:36 初始化技术

18:39 内存和分布式

19:44 习题 7.6 和 7.9

20:26 习题 7.7 和 7.8

21:17 习题 7.12 和 7.13

22:13 习题 7.14 和 7.15

23:10 结束语