
《理解深度学习》第17课-深度学习性能优化之早停法、集成学习和Dropout深度学习不只是拟合,更是权衡的。当显式正则化触及天花板,启发式技巧便成为弥合泛化差距的关键。本课聚焦三大神器:早停法在噪声入侵前“见好就收”;集成学习通过“集思广益”抵消个体误差;Dropout 则随机打破神经元的“共谋”以消除冗余扭结。这些实战策略,正是提升模型性能的精髓所在。 第17课完整讲义:https://zhuanlan.zhihu.com/p/2021693613671814476 00:00 开篇语 01:58 早停法 04:45 集成法 08:21 Dropout 11:56 结束语
《理解深度学习》第16课-深度学习正则化:缩小泛化差距的艺术本课探讨旨在缩小泛化差距的正则化技术。主要分为在损失函数中添加惩罚项的显式正则化(如L2、L1),以及由GD和SGD算法特性产生的隐式正则化。 第16课完整讲义:https://zhuanlan.zhihu.com/p/2020954117183382744 00:00 开篇语 00:28 正则化技术 04:03 作为贝叶斯先验的正则化 05:33 L2 正则化 07:25 正则化变体与权重衰减 10:55 梯度下降中的隐式正则化 15:43 随机梯度下降中的隐式正则化 18:22 习题 21:40 结束语
《理解深度学习》第15课-穿越双重下降:深度学习的过参数与超参数寻优我们曾经深信模型越复杂越容易过拟合。然而,“双重下降”现象揭示了一个反直觉的真相:当容量超越临界点,过参数化模型竟能在稀疏的高维空间中实现更平滑的插值,开启泛化性能的新篇章。让我们揭开深度学习这一神秘的面纱。 第15课完整讲义:https://zhuanlan.zhihu.com/p/2016178652765783971 00:00 开篇语 00:17 双重下降 05:45 维度爆炸和过参数 09:09 超参数搜索 13:47 小结 15:35 练习 16:33 结束语
《理解深度学习》第14课-解密机器学习性能:测试误差的三大来源与权衡训练误差归零并不代表大功告成,往往只是模型“死记硬背”而已,。本章将直面深度学习的核心矛盾:如何让模型从有限的经验中提炼规律,而非迷失在噪声的丛林里,?我们将拆解误差的三重本质——噪声、偏差与方差,重新审视容量增加带来的“偏差-方差权衡”, 预告现代模型将会出现“双重下降”实现性能的二次飞跃。 第14课完整讲义:https://zhuanlan.zhihu.com/p/2015440609763148108 00:00 开篇语 00:44 完美记忆和泛化鸿沟 02:10 MNIST-1D 基准测试 06:17 一维回归玩具模型 07:51 三种误差 10:22 损失期望的分解 14:46 增加数据量压制方差 15:41 提升容量消除偏差 16:39 过拟合危机和偏差方差权衡 19:03 结束语
《理解深度学习》第13课-深度学习训练的初始化与实现本课聚焦参数初始化与训练实践。重点推导了 **He 初始化**,旨在维持传播过程中激活值与梯度的方差稳定,从而有效解决梯度消失与爆炸问题。此外,还介绍了内存优化技术及支持超大模型训练的分布式并行方案。 第13课完整讲义:https://zhuanlan.zhihu.com/p/2010000677032719144 00:00 开篇语 00:36 初始化挑战:梯度消失和爆炸 03:43 He 初始化 12:03 示例训练代码 17:04 反向传播的历史 17:36 初始化技术 18:39 内存和分布式 19:44 习题 7.6 和 7.9 20:26 习题 7.7 和 7.8 21:17 习题 7.12 和 7.13 22:13 习题 7.14 和 7.15 23:10 结束语
《理解深度学习》第12课-深度神经网络的反向传播算法本课详解反向传播算法。通过前向传播存储激活值,反向传播利用链式法则复用中间导数,高效计算损失对权重和偏置的梯度。该过程将复杂微积分转化为矩阵乘法,是训练深度模型的核心。 第12课完整讲义:https://zhuanlan.zhihu.com/p/2009178517770876155 00:00 开篇语 00:14 第6章回顾 02:13 三次隐藏网络的前向计算 03:38 总损失和参数更新 05:07 观察1 和 观察2 09:07 玩具示例 10:10 玩具示例中的前向传播 10:43 玩具示例中的反向传播1 12:11 玩具示例中的反向传播2 13:32 向量矩阵表示的前向传播 14:26 向量矩阵表示的反向传播 1 17:52 向量矩阵表示的反向传播 2 20:15 反向传播算法总结 21:55 自动微分、张量和无环计算图 24:16 结束语
《理解深度学习》第11课-优化算法进阶:动量、Adam与超参数的艺术本课聚焦提升优化效率的进阶算法。核心介绍了动量法,通过累积历史梯度平滑搜索轨迹并加速收敛。详细阐述了 Adam 优化器,结合一阶和二阶矩估计实现参数级自适应学习率。最后强调了超参数搜索在模型拟合中的“艺术”属性。 第11课完整讲义:https://zhuanlan.zhihu.com/p/2001311882972263439 00:00 开篇语 01:22 动量就是指数加权平均 04:40 Nesterov 加速动量 06:26 单一学习率的困境 07:35 归一化梯度 11:13 Adam 自适应矩估计 15:47 训练的艺术:超参数搜索 17:02 第6章总结 19:12 Notes 部分 21:22 习题 23:10 结束语
《理解深度学习》第10课-模型拟合之道:从梯度下降到随机梯度下降本课讲解模型拟合,即通过迭代优化寻找使损失函数最小化的参数。核心算法是梯度下降:通过计算损失关于参数的梯度,并沿“下坡”方向迭代更新。针对非凸损失函数中的局部最小值和鞍点,引入随机梯度下降(SGD),利用小批量数据的随机性提升搜索能力。 第10课完整讲义:https://zhuanlan.zhihu.com/p/2000523540684895918 00:00 开篇语 01:01 拟合 或训练的核心目标 02:42 梯度下降法 06:27 梯度下降法 07:50 梯度下降法 08:17 陷阱:局部最小值和鞍点 10:07 引入噪音的随机梯度下降 10:35 batch 和 epoch 12:46 在不断变化的损失函数 13:31 随机梯度下降的核心特性 15:04 学习率调度 15:45 结束语
《理解深度学习》第9课-用神经网络进行概率分布参数的估算第9课视频的主要内容: 聚焦多分类任务与损失函数的底层原理。重点介绍了如何利用 Softmax 函数将网络输出转化为分类分布参数。通过引入 KL 散度衡量分布间的不相似度,本课严谨地证明了最小化交叉熵损失与最大似然准则下的负对数似然在数学上是完全等价的。这为深度学习模型训练提供了坚实的概率论解释。 第9课完整讲义:https://zhuanlan.zhihu.com/p/1996229949309351133 00:00 开篇语 00:41 多分类任务 02:09 softmax函数将网络输出转化乘概率分布 04:12 多分类交叉熵损失的推导 06:28 不同预测类型的损失函数分布 07:08 多输出模型与独立性假设 08:31 异构数据预测与总损失计算 09:56 KL散度与经验分布 13:15 交叉熵与负对数似然的等价性 16:19 深度学作为分布参数估计 18:09 深度学作为分布参数估计 19:01 习题 19:35 结束语
《理解深度学习》第8课-损失函数的核心:最大拟然估计第8课视频的主要内容: 介绍了构建损失函数的通用框架。其核心是将模型视为计算条件概率分布,通过最大似然准则推导出负对数似然损失。书中详述了构建损失的四个步骤:选择分布、预测参数、最小化损失及推理。通过回归与二元分类示例,证明了最小二乘法和交叉熵损失分别源于对不同概率分布的建模。 第8课完整讲义:https://zhuanlan.zhihu.com/p/1995574285968881241 00:00 开篇语 01:44 新视角:模型预测的是一个概率分布 04:09 最大似然:选择让观测数据最可能的参数 06:41 从“概率连乘”到“对数累加” 08:36 将最大化问题转化成最小化损失 09:42 将最大化问题转化成最小化损失 11:10 案例:单变量回归 12:14 从负对数似然到最小二乘 14:48 推理 方差估计 异方差回归 17:53 案例:二元分类 19:50 二元交叉熵损失函数的由来 20:54 模型学到了什么? -- 类别的概率 21:22 结束语
《理解深度学习》第7课-深浅神经网络的对决第7课视频的主要内容: 对深度与浅层神经网络的对决进行基于第一性原理的结构、效率与性能比较分析。从函数通近能力、参数效率、深度效率、处理结构化输入和训练与泛化五个关键维度展开,指出深度网络在参数效率深度效率和结构化输入处理上具有优势,但浅层网络在理论上也能完成相应任务。 第7课完整讲义:https://zhuanlan.zhihu.com/p/1994084784637498924 00:00 开篇语 00:49 神经网络的语言 :矩阵表示 02:56 深度网络的通用公式 05:30 函数的逼近能力 06:25 参数效率与线性区域数 09:17 深度效率 09:58 大型结构化输入 和 训练泛化 12:28 对比总结 14:05 线性区域数量的精确计算 15:05 万能逼近定律的宽度和深度版本 15:58 小结 16:34 习题 18:41 结束语
《理解深度学习》第6课-深度神经网络的力量第6课视频的主要内容: 介绍了深度神经网络通过逐层组合简单操作,如折叠输入空间和裁剪与重组,能够以更少参数高效构建复杂模型。相比浅层网络,深度网络在相同参数量下能产生更多线性区域,从而提升表达能力。浅层网络通近复杂函数需要极多神经元,实践中面临挑战,而深度网络能描述更广泛的函数族。 第6课完整讲义:https://zhuanlan.zhihu.com/p/1993632264853160154 00:00 开篇语 02:39 组合两个浅层网络 07:00 从一维到多维 06:02 将输入空间“折叠” 09:07 从网络组合到深度网络 13:23 深度神经网络 17:23 核心术语与超参数 19:58 结束语
《理解深度学习》第5课-浅层神经网络剖析第5课视频的主要内容: 介绍了浅层神经网络是仅包含一个隐藏层的前馈网络,也称为多层感知机,由输入层、一个隐藏层和输出层构成。它具有特定的工作原理与核心组件,如常用的ReLU 激活函数,具备强大的函数近似能力,还介绍了相关网络架构术语。 第5课完整讲义:https://zhuanlan.zhihu.com/p/1993364770007577995 00:00 开篇语 00:55 通用浅层网络的数学定义 04:14 用超平面分割输入空间 06:17 神经网络术语 10:02 总结 11:33 为何称为“神经网络” 12:23 激活函数的演进 14:41 通用近似定理 16:33 习题 23:27 结束语
《理解深度学习》第4课-解密浅层神经网络第4课视频的主要内容: 介绍了浅层神经网络由输入层、隐藏层和输出层构成,能构建分段线性函数,可通近任意连续函数目可扩展至多维数据。ReLU激活函数将负值变为零,正值保持不变,为网络引入非线性,其参数决定了分段线性函数族的具体形态。 第4课完整讲义:https://zhuanlan.zhihu.com/p/1992583209372889454 00:00 开篇语 00:58 02:37 04:17 04:17 06:26 07:19 10:04 12:16 12:54 15:20 结束语
《理解深度学习》第3课-监督学习第3课视频的主要内容: 介绍了监督学习流程,涵盖定义模型、损失函数、训练和评估等核心步骤,以线性回归为例阐述输入输出映射、参数及损失函数,还提及监督学习流程总结及后续学习方向。 第3课完整讲义:https://zhuanlan.zhihu.com/p/1992345507088053434 00:00 开篇语 00:43 01:37 02:56 04:50 05:19 06:15 07:56 08:26 09:55 11:13 12:22 13:16 13:54 结束语