神经网络的泛化之谜：一些线索和一点猜想

爬梯登月

54分钟 ·3年前

178

好久没录，这次我们尝试讨论了一只深度学习房间里的大象：为什么海量参数的模型在测试集上的泛化性能依然很好，而且这种趋势并不会随着参数量增加而变化？

下面是本期内容简介：

开场

什么是神经网络的泛化之谜？

一些线索

三层网络的拟合能力 & ReLU 网络与其的等价性

Lottery ticket hypothesis

Double descent 双重下降

Linear Mode connectivity

胡乱猜想：解空间的密度决定了求解的容易程度

神经网络里的几种对称性：scaling, permutation和其他

结语

Kolmogorov Complexity, ensemble method, OpenAI首席科学家近期演讲 & quantization

未来话题计划

展开Show Notes

延迟更新

2024.6.17

30:08 感觉像是这样：解可以表达为只需要A个参数来表达的A维超曲面，可以被嵌入到最小B维的空间中（可以类比微分几何中的嵌入定理，对流形紧致性不同会有一定的区别），此后参数空间的维度扩张后，这个超曲面的维度也会跟着扩张，因为自身所需的维度数是不变的，那么其他多出来的参数空间的维度就都会被吸收成为不显式的冗余维度。
从这个角度来说，的确是参数空间越大“密度”越大。

延迟更新

2024.6.17

18:43 如果将网络连接或者说超图的边视为对象，而非将节点视为对象，也就是取超图的对偶图（没记错的话），那你会发现这依然是求解过程而非找解过程。

启总

2023.10.24

cool

MSignal

2023.10.22

主播有个人网站或github主页吗

ptdy

:chenghuzi.github.io

在小宇宙打开