MAE:高遮挡重建学会视觉表征

MAE:高遮挡重建学会视觉表征

18分钟 ·
播放数0
·
评论数0

这期讲清楚 MAE 怎么把 NLP 里的 masked modeling 成功搬到视觉领域:随机遮掉 75% 图像,只让编码器看可见 patch,再用轻量解码器补全。你会理解它为什么用极简的像素重建目标,却能在分类、检测和分割迁移上全面超过监督预训练。也会看到这篇论文真正厉害的地方,不只是效果强,而是重新定义了视觉自监督的主流路线。

00:00 背景与动机
01:53 方法拆解
04:27 实验结果深读
12:41 图表导读
13:53 评价与讨论
15:54 延伸思考

Source: paper | arxiv.org