刷新 ImageNet 记录！MAE：计算机视觉的 BERT 时刻来了？

大家好，欢迎收听播客「听懂 100 篇 AI 经典论文」

我们今天聊聊一篇计算机视觉领域的重磅论文：Masked Autoencoders (MAE)。在自然语言处理 (NLP) 领域，像 BERT 这样的“蒙版语言模型”通过遮住部分文本让模型去预测，取得了巨大的成功。那么，这个思路在视觉领域也行得通吗？答案是肯定的！这篇发表在 2021 年的论文展示了一种简单、高效且可扩展的自监督学习方法 MAE，它通过随机遮盖输入图像的大量区域，然后训练模型重建被遮盖部分的像素。

听起来很简单，但它带来了两大关键创新：一个非对称的编码器-解码器架构，以及极高的遮盖比例（比如 75%）。这不仅让预训练过程效率大幅提升（训练时间缩短 3 倍或更多），还使得 MAE 在 ImageNet 分类任务上达到了最顶尖的准确率，并且在下游的目标检测和语义分割任务上展现出超越监督预训练的强大迁移能力和良好的可扩展性。

本期节目，我们就来聊聊 MAE 的核心思想、巧妙设计以及它如何为计算机视觉的自监督学习开辟新的道路。

本期播客中你将听到 (Outline):

深度学习的“数据饥渴”与自监督学习的崛起：为什么我们需要自监督预训练？回顾 NLP 中 BERT 等方法的成功。

MAE 的核心思想：给 AI 看一张打码的图片，让它猜原图长啥样。

设计亮点一：非对称架构的秘密：

编码器 (Encoder)：只处理可见的那一部分图像补丁，大大节省计算。

解码器 (Decoder)：一个轻量级的模型，负责从编码器的输出和“占位符”（掩码标记）重建完整的图像像素。

为什么这个非对称设计如此高效？（计算量主要集中在编码器，现在只处理 25% 的数据）。

预训练后，解码器就被丢弃，只使用编码器进行下游任务3...。

设计亮点二：大胆的高比例遮盖：

遮盖 75% 的图像？这听起来反直觉，但在视觉中效果最好。

为什么高比例遮盖在视觉中有效，而在 NLP 中用 15%？（图像的空间冗余高，低比例遮盖太容易猜；高比例遮盖迫使模型理解整体结构和语义）。

随机采样遮盖策略效果最好。

重建什么？像素就够了：为什么重建原始像素值是有效的，甚至比预测离散的视觉标记更简单高效。

惊艳的训练效果：

在 ImageNet-1K 上实现了最优准确率。

训练时间大幅缩短。

对数据增强依赖低。

训练时间越长效果越好。

强大的迁移能力：在目标检测 (COCO) 和语义分割 (ADE20K) 等任务上超越监督预训练，展现出良好的扩展性

重新理解模型能力：MAE 提示我们，线性可分性不是评估表示质量的唯一标准，它学习到了强大的非线性特征

总结与展望：MAE 为视觉领域的自监督学习带来了新的曙光，预示着视觉模型未来可能像 NLP 模型一样实现大规模可扩展的训练7...。

关键概念速查 (Key Concepts Explained):

自监督学习 (Self-supervised learning): 利用数据自身的结构信息作为监督信号来训练模型，无需人工标注。

Masked Autoencoder (MAE): 一种自编码器，通过重建输入中被遮盖（屏蔽）的部分来学习表示。

Vision Transformer (ViT): 一种将图像切分成小块（patches），然后用 Transformer 架构处理的神经网络模型。

编码器-解码器 (Encoder-Decoder): 神经网络的一种常见架构，编码器将输入转换为一个表示（latent representation），解码器再从这个表示生成输出。MAE 采用的是非对称设计。

遮盖比例 (Masking Ratio): 输入图像中被遮盖掉的补丁（patches）所占的比例。

图像补丁 (Image Patches): 将一张图片分割成的规整的、不重叠的小区域。

掩码标记 (Mask Token): 在解码器中用来表示被遮盖位置的特殊标记，是一个可学习的向量。

位置嵌入 (Positional Embedding): 添加到输入标记（包括图像补丁和掩码标记）上的向量，用于向模型提供它们在原始图像中的位置信息。

像素重建 (Pixel Reconstruction): 模型的训练目标，即精确地预测出被遮盖区域的原始像素值。

线性探测 (Linear Probing): 一种评估预训练模型表示能力的方法，固定预训练模型的主体参数，只训练一个在其输出层之上的线性分类器。

微调 (Fine-tuning): 在下游任务上，使用少量有标签数据，对整个或部分预训练模型进行进一步训练，调整模型参数以适应新任务。

空间冗余 (Spatial Redundancy): 图像中相邻区域通常包含高度相似的信息，存在大量重复或可预测的内容。

格式塔 (Gestalt): 指事物的整体结构、形式或模式，强调整体大于部分之和。

了解更多 (Where to Learn More):

论文名称： Masked Autoencoders Are Scalable Vision Learners

原文地址：arxiv.org