这期讲清楚 MAE 怎么把 NLP 里的 masked modeling 成功搬到视觉领域：随机遮掉 75% 图像，只让编码器看可见 patch，再用轻量解码器补全。你会理解它为什么用极简的像素重建目标，却能在分类、检测和分割迁移上全面超过监督预训练。也会看到这篇论文真正厉害的地方，不只是效果强，而是重新定义了视觉自监督的主流路线。
00:00 背景与动机
01:53 方法拆解
04:27 实验结果深读
12:41 图表导读
13:53 评价与讨论
15:54 延伸思考
Source: paper | https://arxiv.org/pdf/2111.06377

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

MAE：高遮挡重建学会视觉表征

69cfa0a7b977fb2c47086427/luk-jYVOyMlcOts5fuIVVJLXYIuq.mp3