这期聊 Meta 和 Inria 的 DINOv2:只靠高质量无标注图像和自监督学习,能否训练出像 foundation model 一样开箱即用的视觉特征。我们会拆解它的三大关键:LVD-142M curated 数据、结合全局与 patch 的训练目标,以及把大模型能力蒸馏给小模型的规模化工程。更重要的是看它为什么能在分类、检索、分割、深度和鲁棒性上全面超过不少弱监督方法,并重新证明“纯视觉路线”依然大有可为。
00:00 背景与动机
01:54 方法拆解
04:44 实验结果解读
11:36 图表导读
12:42 评价与讨论
14:27 延伸思考
Source: paper | arxiv.org
