好久没录,这次我们尝试讨论了一只深度学习房间里的大象:为什么海量参数的模型在测试集上的泛化性能依然很好,而且这种趋势并不会随着参数量增加而变化?
下面是本期内容简介:
开场
什么是神经网络的泛化之谜?
一些线索
三层网络的拟合能力 & ReLU 网络与其的等价性
Lottery ticket hypothesis
Double descent 双重下降
Linear Mode connectivity
胡乱猜想:解空间的密度决定了求解的容易程度
神经网络里的几种对称性:scaling, permutation和其他
结语
Kolmogorov Complexity, ensemble method, OpenAI首席科学家近期演讲 & quantization
未来话题计划

从这个角度来说,的确是参数空间越大“密度”越大。