本课探讨旨在缩小泛化差距的正则化技术。主要分为在损失函数中添加惩罚项的显式正则化(如L2、L1),以及由GD和SGD算法特性产生的隐式正则化。第16课完整讲义:zhuanlan.zhihu.com00:00 开篇语00:28 正则化技术04:03 作为贝叶斯先验的正则化05:33 L2 正则化07:25 正则化变体与权重衰减10:55 梯度下降中的隐式正则化15:43 随机梯度下降中的隐式正则化18:22 习题21:40 结束语