这期讲OpenAI的CLIP,如何用4亿图文对替代固定标签训练视觉模型。它把图片和文本映射到同一空间,用对比学习直接实现强大的zero-shot识别。我们还会讲清它为何是视觉领域的范式转折,以及它的能力边界与现实问题。00:00 背景与动机01:48 方法拆解04:21 实验结果深读09:37 图表导读11:08 评价与讨论12:53 延伸思考Source: paper | arxiv.org