这期聊 Google DeepMind 的 SigLIP 2,如何把 SigLIP、captioning pretraining、self-distillation 和 masked prediction 合成一套统一训练方案。它不只提升 zero-shot 分类和图文检索,还显著增强定位、分割、深度估计和 OCR 等细颗粒度能力。我们也会重点讲它为什么能在英文性能、多语言泛化和稠密特征之间取得更好的平衡。
00:00 背景与动机
02:04 方法拆解
05:58 实验结果深读
14:40 图表导读
16:11 评价与讨论
18:18 延伸思考
Source: paper | arxiv.org
