这期聊 Google DeepMind 的 SigLIP 2，如何把 SigLIP、captioning pretraining、self-distillation 和 masked prediction 合成一套统一训练方案。它不只提升 zero-shot 分类和图文检索，还显著增强定位、分割、深度估计和 OCR 等细颗粒度能力。我们也会重点讲它为什么能在英文性能、多语言泛化和稠密特征之间取得更好的平衡。
00:00 背景与动机
02:04 方法拆解
05:58 实验结果深读
14:40 图表导读
16:11 评价与讨论
18:18 延伸思考
Source: paper | https://arxiv.org/pdf/2502.14786

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

SigLIP 2：统一配方升级多语言视觉编码器

69cfa0a7b977fb2c47086427/llXMRSipehLEP2F0HY6lV50zCw5C.mp3