理解深度学习

89已订阅

理解深度学习

事必亲躬

单集更新

节目详情

《理解深度学习》第20课-卷积神经网络（二维）的核心机制
处理高维图像时，全连接层常因参数冗余而失效。本章先用 MNIST-1D 实例复习了一维卷积，然后剖析二维卷积如何利用空间局部性构建优越的归纳偏置。我们将解析池化下采样、转置卷积上采样及 1x1 卷积的妙用，拆解 CNN 高效处理信息的底层架构。第20课完整讲义：https://zhuanlan.zhihu.com/p/2037509069913707821 00:00 开篇语 00:31 示例：MNIST-1D 06:11 二维输入的卷积网络 08:29 习题 10.13 11:23下采样与上采样 14:51 习题 10.15 17:50 改变通道数量 19:04 附注 20:13 结束语
21分钟 · 8天前
8
0
《理解深度学习》第19课-卷积神经网络（一维）的核心机制
面对动辄万维的图像，全连接网络常因参数爆炸和忽视像素关联而力不从心。卷积神经网络（CNN）通过权重共享与局部连接，巧妙破解了这一难题。本章将解析卷积操作如何赋予模型等变性，并探讨感受野随深度扩张的机制，带你掌握深度学习处理空间信息的核心逻辑。第19课完整讲义：https://zhuanlan.zhihu.com/p/2028424857268830657 00:00 开篇语 03:10 不变性与等变性 05:27 一维卷积操作，填充 10:00 步幅、核大小与空洞率 13:12 卷积层通道 17:57 卷积网络与感受野 22:01 结束语
23分钟 · 1 个月前
15
0
《理解深度学习》第18课-提升泛化能力的进阶策略
本课探讨了提升神经网络泛化能力的多种机制，在上一堂课的基础上，继续讨论了数据增强、贝叶斯推断与添加噪声等启发式方法。其核心在于通过平滑建模函数、增加有效数据、组合模型或寻找宽阔最小值来有效抑制过拟合。第18课完整讲义：https://zhuanlan.zhihu.com/p/2024580066550588223 00:00 开篇语 00:49 应用噪声 07:16 贝叶斯推断 09:47 迁移学习和多任务学习 13:05 自监督学习 15:48 数据增强 17:55 结束语
21分钟 · 1 个月前
26
0
《理解深度学习》第17课-深度学习性能优化之早停法、集成学习和Dropout
深度学习不只是拟合，更是权衡的。当显式正则化触及天花板，启发式技巧便成为弥合泛化差距的关键。本课聚焦三大神器：早停法在噪声入侵前“见好就收”；集成学习通过“集思广益”抵消个体误差；Dropout 则随机打破神经元的“共谋”以消除冗余扭结。这些实战策略，正是提升模型性能的精髓所在。第17课完整讲义：https://zhuanlan.zhihu.com/p/2021693613671814476 00:00 开篇语 01:58 早停法 04:45 集成法 08:21 Dropout 11:56 结束语
13分钟 · 2个月前
11
2
《理解深度学习》第16课-深度学习正则化：缩小泛化差距的艺术
本课探讨旨在缩小泛化差距的正则化技术。主要分为在损失函数中添加惩罚项的显式正则化（如L2、L1），以及由GD和SGD算法特性产生的隐式正则化。第16课完整讲义：https://zhuanlan.zhihu.com/p/2020954117183382744 00:00 开篇语 00:28 正则化技术 04:03 作为贝叶斯先验的正则化 05:33 L2 正则化 07:25 正则化变体与权重衰减 10:55 梯度下降中的隐式正则化 15:43 随机梯度下降中的隐式正则化 18:22 习题 21:40 结束语
23分钟 · 2个月前
9
0
《理解深度学习》第15课-穿越双重下降：深度学习的过参数与超参数寻优
我们曾经深信模型越复杂越容易过拟合。然而，“双重下降”现象揭示了一个反直觉的真相：当容量超越临界点，过参数化模型竟能在稀疏的高维空间中实现更平滑的插值，开启泛化性能的新篇章。让我们揭开深度学习这一神秘的面纱。第15课完整讲义：https://zhuanlan.zhihu.com/p/2016178652765783971 00:00 开篇语 00:17 双重下降 05:45 维度爆炸和过参数 09:09 超参数搜索 13:47 小结 15:35 练习 16:33 结束语
17分钟 · 2个月前
10
0
《理解深度学习》第14课-解密机器学习性能：测试误差的三大来源与权衡
训练误差归零并不代表大功告成，往往只是模型“死记硬背”而已,。本章将直面深度学习的核心矛盾：如何让模型从有限的经验中提炼规律，而非迷失在噪声的丛林里,？我们将拆解误差的三重本质——噪声、偏差与方差，重新审视容量增加带来的“偏差-方差权衡”, 预告现代模型将会出现“双重下降”实现性能的二次飞跃。第14课完整讲义：https://zhuanlan.zhihu.com/p/2015440609763148108 00:00 开篇语 00:44 完美记忆和泛化鸿沟 02:10 MNIST-1D 基准测试 06:17 一维回归玩具模型 07:51 三种误差 10:22 损失期望的分解 14:46 增加数据量压制方差 15:41 提升容量消除偏差 16:39 过拟合危机和偏差方差权衡 19:03 结束语
21分钟 · 2个月前
10
0
《理解深度学习》第13课-深度学习训练的初始化与实现
本课聚焦参数初始化与训练实践。重点推导了 **He 初始化**，旨在维持传播过程中激活值与梯度的方差稳定，从而有效解决梯度消失与爆炸问题。此外，还介绍了内存优化技术及支持超大模型训练的分布式并行方案。第13课完整讲义：https://zhuanlan.zhihu.com/p/2010000677032719144 00:00 开篇语 00:36 初始化挑战：梯度消失和爆炸 03:43 He 初始化 12:03 示例训练代码 17:04 反向传播的历史 17:36 初始化技术 18:39 内存和分布式 19:44 习题 7.6 和 7.9 20:26 习题 7.7 和 7.8 21:17 习题 7.12 和 7.13 22:13 习题 7.14 和 7.15 23:10 结束语
23分钟 · 3个月前
17
0
《理解深度学习》第12课-深度神经网络的反向传播算法
本课详解反向传播算法。通过前向传播存储激活值，反向传播利用链式法则复用中间导数，高效计算损失对权重和偏置的梯度。该过程将复杂微积分转化为矩阵乘法，是训练深度模型的核心。第12课完整讲义：https://zhuanlan.zhihu.com/p/2009178517770876155 00:00 开篇语 00:14 第6章回顾 02:13 三次隐藏网络的前向计算 03:38 总损失和参数更新 05:07 观察1 和观察2 09:07 玩具示例 10:10 玩具示例中的前向传播 10:43 玩具示例中的反向传播1 12:11 玩具示例中的反向传播2 13:32 向量矩阵表示的前向传播 14:26 向量矩阵表示的反向传播 1 17:52 向量矩阵表示的反向传播 2 20:15 反向传播算法总结 21:55 自动微分、张量和无环计算图 24:16 结束语
25分钟 · 3个月前
22
0
《理解深度学习》第11课-优化算法进阶：动量、Adam与超参数的艺术
本课聚焦提升优化效率的进阶算法。核心介绍了动量法，通过累积历史梯度平滑搜索轨迹并加速收敛。详细阐述了 Adam 优化器，结合一阶和二阶矩估计实现参数级自适应学习率。最后强调了超参数搜索在模型拟合中的“艺术”属性。第11课完整讲义：https://zhuanlan.zhihu.com/p/2001311882972263439 00:00 开篇语 01:22 动量就是指数加权平均 04:40 Nesterov 加速动量 06:26 单一学习率的困境 07:35 归一化梯度 11:13 Adam 自适应矩估计 15:47 训练的艺术：超参数搜索 17:02 第6章总结 19:12 Notes 部分 21:22 习题 23:10 结束语
24分钟 · 4个月前
31
0
《理解深度学习》第10课-模型拟合之道：从梯度下降到随机梯度下降
本课讲解模型拟合，即通过迭代优化寻找使损失函数最小化的参数。核心算法是梯度下降：通过计算损失关于参数的梯度，并沿“下坡”方向迭代更新。针对非凸损失函数中的局部最小值和鞍点，引入随机梯度下降（SGD），利用小批量数据的随机性提升搜索能力。第10课完整讲义：https://zhuanlan.zhihu.com/p/2000523540684895918 00:00 开篇语 01:01 拟合或训练的核心目标 02:42 梯度下降法 06:27 梯度下降法 07:50 梯度下降法 08:17 陷阱:局部最小值和鞍点 10:07 引入噪音的随机梯度下降 10:35 batch 和 epoch 12:46 在不断变化的损失函数 13:31 随机梯度下降的核心特性 15:04 学习率调度 15:45 结束语
16分钟 · 4个月前
5
0
《理解深度学习》第9课-用神经网络进行概率分布参数的估算
第9课视频的主要内容：聚焦多分类任务与损失函数的底层原理。重点介绍了如何利用 Softmax 函数将网络输出转化为分类分布参数。通过引入 KL 散度衡量分布间的不相似度，本课严谨地证明了最小化交叉熵损失与最大似然准则下的负对数似然在数学上是完全等价的。这为深度学习模型训练提供了坚实的概率论解释。第9课完整讲义：https://zhuanlan.zhihu.com/p/1996229949309351133 00:00 开篇语 00:41 多分类任务 02:09 softmax函数将网络输出转化乘概率分布 04:12 多分类交叉熵损失的推导 06:28 不同预测类型的损失函数分布 07:08 多输出模型与独立性假设 08:31 异构数据预测与总损失计算 09:56 KL散度与经验分布 13:15 交叉熵与负对数似然的等价性 16:19 深度学作为分布参数估计 18:09 深度学作为分布参数估计 19:01 习题 19:35 结束语
20分钟 · 4个月前
9
0
《理解深度学习》第8课-损失函数的核心：最大拟然估计
第8课视频的主要内容：介绍了构建损失函数的通用框架。其核心是将模型视为计算条件概率分布，通过最大似然准则推导出负对数似然损失。书中详述了构建损失的四个步骤：选择分布、预测参数、最小化损失及推理。通过回归与二元分类示例，证明了最小二乘法和交叉熵损失分别源于对不同概率分布的建模。第8课完整讲义：https://zhuanlan.zhihu.com/p/1995574285968881241 00:00 开篇语 01:44 新视角：模型预测的是一个概率分布 04:09 最大似然：选择让观测数据最可能的参数 06:41 从“概率连乘”到“对数累加” 08:36 将最大化问题转化成最小化损失 09:42 将最大化问题转化成最小化损失 11:10 案例：单变量回归 12:14 从负对数似然到最小二乘 14:48 推理方差估计异方差回归 17:53 案例：二元分类 19:50 二元交叉熵损失函数的由来 20:54 模型学到了什么？ -- 类别的概率 21:22 结束语
23分钟 · 4个月前
25
0
《理解深度学习》第7课-深浅神经网络的对决
第7课视频的主要内容：对深度与浅层神经网络的对决进行基于第一性原理的结构、效率与性能比较分析。从函数通近能力、参数效率、深度效率、处理结构化输入和训练与泛化五个关键维度展开，指出深度网络在参数效率深度效率和结构化输入处理上具有优势，但浅层网络在理论上也能完成相应任务。第7课完整讲义：https://zhuanlan.zhihu.com/p/1994084784637498924 00:00 开篇语 00:49 神经网络的语言：矩阵表示 02:56 深度网络的通用公式 05:30 函数的逼近能力 06:25 参数效率与线性区域数 09:17 深度效率 09:58 大型结构化输入和训练泛化 12:28 对比总结 14:05 线性区域数量的精确计算 15:05 万能逼近定律的宽度和深度版本 15:58 小结 16:34 习题 18:41 结束语
19分钟 · 4个月前
29
0
《理解深度学习》第6课-深度神经网络的力量
第6课视频的主要内容：介绍了深度神经网络通过逐层组合简单操作，如折叠输入空间和裁剪与重组，能够以更少参数高效构建复杂模型。相比浅层网络，深度网络在相同参数量下能产生更多线性区域，从而提升表达能力。浅层网络通近复杂函数需要极多神经元，实践中面临挑战，而深度网络能描述更广泛的函数族。第6课完整讲义：https://zhuanlan.zhihu.com/p/1993632264853160154 00:00 开篇语 02:39 组合两个浅层网络 07:00 从一维到多维 06:02 将输入空间“折叠” 09:07 从网络组合到深度网络 13:23 深度神经网络 17:23 核心术语与超参数 19:58 结束语
21分钟 · 4个月前
44
0

教科书《Understanding Deep Learning， Simon J.D. Prince，May 29, 2025》由 Simon J.D. Prince 编写，专注于深度学习的核心思想而非编程实操。内容涵盖监督学习、各类生成模型（如 GAN、扩散模型）、强化学习及 AI 伦理。该书旨在帮助读者通过掌握基本原理，灵活应对各种新场景。