CLIP:用自然语言监督学通用视觉

CLIP:用自然语言监督学通用视觉

14分钟 ·
播放数0
·
评论数0

这期讲OpenAI的CLIP,如何用4亿图文对替代固定标签训练视觉模型。它把图片和文本映射到同一空间,用对比学习直接实现强大的zero-shot识别。我们还会讲清它为何是视觉领域的范式转折,以及它的能力边界与现实问题。

00:00 背景与动机
01:48 方法拆解
04:21 实验结果深读
09:37 图表导读
11:08 评价与讨论
12:53 延伸思考

Source: paper | arxiv.org