这期聊 Meta 等提出的 I-JEPA:不用依赖复杂数据增强,也不做像素重建,而是用图像上下文去预测目标区域的表征。它抓住了自监督学习里的一个关键新思路——直接学“语义级”表示,因此在线性评估、低标注迁移和多项下游任务上表现很强。我们还会重点拆解它为什么有效:三模块架构、masking 策略、EMA teacher,以及“预测表征而不是像素”到底改变了什么。
00:00 背景与动机
02:23 方法拆解
05:15 实验结果解读
12:55 图表导读
14:18 评价与讨论
16:23 延伸思考
Source: paper | arxiv.org
