SigLIP 2:统一配方升级多语言视觉编码器

SigLIP 2:统一配方升级多语言视觉编码器

20分钟 ·
播放数0
·
评论数0

这期聊 Google DeepMind 的 SigLIP 2,如何把 SigLIP、captioning pretraining、self-distillation 和 masked prediction 合成一套统一训练方案。它不只提升 zero-shot 分类和图文检索,还显著增强定位、分割、深度估计和 OCR 等细颗粒度能力。我们也会重点讲它为什么能在英文性能、多语言泛化和稠密特征之间取得更好的平衡。

00:00 背景与动机
02:04 方法拆解
05:58 实验结果深读
14:40 图表导读
16:11 评价与讨论
18:18 延伸思考

Source: paper | arxiv.org