这期讲一篇把 Masked Image Modeling 拆成“编码—表示预测—重建”三段的工作:CAE。它的核心不是直接猜像素,而是先在 latent space 里预测被遮挡 patch 的语义表示,再用 decoder 完成重建。实验上它在 ADE20K 和 COCO 等 dense tasks 上稳定超过 MAE,说明这种“先补语义,再做重建”的设计更能学到适合迁移的表征。
00:00 背景与动机
01:58 方法拆解
04:46 实验结果解读
12:01 图表导读
13:28 评价与讨论
15:37 延伸思考
Source: paper | arxiv.org
