这期讲一篇把 Masked Image Modeling 拆成“编码—表示预测—重建”三段的工作：CAE。它的核心不是直接猜像素，而是先在 latent space 里预测被遮挡 patch 的语义表示，再用 decoder 完成重建。实验上它在 ADE20K 和 COCO 等 dense tasks 上稳定超过 MAE，说明这种“先补语义，再做重建”的设计更能学到适合迁移的表征。
00:00 背景与动机
01:58 方法拆解
04:46 实验结果解读
12:01 图表导读
13:28 评价与讨论
15:37 延伸思考
Source: paper | https://arxiv.org/pdf/2202.03026

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

CAE：先补语义表示再重建图像

69cfa0a7b977fb2c47086427/lhKbsh0AFkwCIyRYc6hqHLQaZOMK.mp3