这期讲清楚 MAE 怎么把 NLP 里的 masked modeling 成功搬到视觉领域:随机遮掉 75% 图像,只让编码器看可见 patch,再用轻量解码器补全。你会理解它为什么用极简的像素重建目标,却能在分类、检测和分割迁移上全面超过监督预训练。也会看到这篇论文真正厉害的地方,不只是效果强,而是重新定义了视觉自监督的主流路线。
00:00 背景与动机
01:53 方法拆解
04:27 实验结果深读
12:41 图表导读
13:53 评价与讨论
15:54 延伸思考
Source: paper | arxiv.org
