图像界的“完形填空”大师: BEIT 让AI无标签看懂世界！

大家好，欢迎收听播客「听懂 100 篇 AI 经典论文」

在人工智能飞速发展的今天，视觉Transformer模型在计算机视觉领域展现出巨大的潜力，但它们常常有一个“甜蜜的烦恼”——对海量标注数据极度“饥渴”1。本期播客，我们将深入探讨一篇极具影响力的论文 “BEIT: BERT Pre-Training of Image Transformers”，它提出了一种创新性的自监督学习方法，让视觉Transformer模型能够像自然语言处理领域的BERT 一样，通过“完形填空”游戏来“自学成才”，无需人工标注就能理解图像的深层语义。我们将详细解析BEIT如何通过“图像分词”和“遮盖图像建模”的巧妙设计，不仅大幅提升了模型性能，还让训练过程更高效、更稳定，为视觉AI的未来开辟了新的道路。

本期播客中你将听到 (Outline)

为什么视觉Transformer模型会“数据饥渴”？ 深入了解当前视觉AI面临的挑战，以及自监督学习为何成为解决之道。

BERT的成功经验，如何启发视觉领域？ 从自然语言处理中的BERT模型3 谈起，解析其“遮盖语言建模”的精髓，以及将其直接应用于图像所面临的挑战。

BEIT的核心思想：图像也有“语言”！ 详细介绍BEIT如何将图片转换为离散的“视觉词汇”（visual tokens）序列，这就像为图像创建了一个独特的词典。

BEIT的“完形填空”游戏：

输入： 原始图片被分割成一个个“图像块”（image patches），其中一部分被随机遮盖（masked）。

目标： 模型不是预测被遮盖的像素点，而是预测这些被遮盖区域所对应的“视觉词汇”2...！为什么这种预测更有效？因为它能学习到图像的高层抽象信息，避免陷入像素级的琐碎细节。

“块状遮盖”（Blockwise Masking）： 深入探讨BEIT独特的遮盖策略，以及它如何帮助模型更好地学习图像特征。

BEIT的“预训练-微调”范式： 了解BEIT模型在大量无标签图像上进行预训练后，如何通过简单的“任务层”快速适应各种下游任务，如图像分类和语义分割。

BEIT带来的惊喜：

卓越的性能表现： BEIT在ImageNet等主流图像数据集上超越了从零开始训练的模型和许多先进的自监督学习方法。

更快的收敛速度和更高的稳定性：预训练后的BEIT模型在微调时表现出更快的收敛速度和更好的稳定性，显著降低了训练成本。

自学成才的语义理解能力：即使没有使用任何人工标注，BEIT的自注意力机制也能学会区分图像中的语义区域和物体边界24...！这对于模型在未知数据上的泛化能力至关重要。

与其他方法的对比与优势： 探讨BEIT如何与对比学习、自蒸馏等其他自监督方法区分开来，并在效率和性能上展现出独特优势26...。

关键概念速查 (Key Concepts Explained)

自监督学习 (Self-supervised Learning)：一种机器学习范式，模型通过从数据本身生成“伪标签”来学习，而无需人工标注。BEIT利用“遮盖图像建模”来生成伪标签。

视觉Transformer (Vision Transformer, ViT)：将Transformer架构应用于图像处理的模型。它将图像分割成小块（patches），然后将这些图像块作为序列输入到Transformer中进行处理。

BERT (Bidirectional Encoder Representations from Transformers)：自然语言处理（NLP）领域的预训练模型，通过“遮盖语言建模”（masked language modeling）任务，预测被遮盖的词汇来学习语言表示。BEIT受其启发。

遮盖图像建模 (Masked Image Modeling, MIM)：BEIT提出的预训练任务。它随机遮盖图像中的一部分图像块，然后要求模型预测这些被遮盖区域对应的“视觉词汇”。

图像块 (Image Patches)：BEIT将2D图像分割成固定大小的非重叠小块，这些图像块是Vision Transformer的输入单元。例如，一篇224x224的图像可以被分割成14x14个16x16像素的图像块。

视觉词汇 (Visual Tokens)：一种离散化的图像表示。BEIT通过一个“图像分词器”（Image Tokenizer），将原始图像转换成一系列离散的视觉词汇。这些词汇来源于一个预先学习好的视觉词典（vocabulary）。

离散变分自编码器 (Discrete Variational Autoencoder, dVAE)：用于学习“图像分词器”的模型，它能将图像像素映射为离散的视觉词汇，并能从这些词汇重建图像。BEIT直接使用了DALL-E的公开图像分词器。

块状遮盖 (Blockwise Masking)：一种图像遮盖策略，不是随机分散地遮盖单个图像块，而是每次遮盖一整个图像块区域。这被证明对模型学习长距离依赖和高层抽象信息更有益。

微调 (Fine-tuning)：在预训练完成后，将预训练好的模型参数作为初始化，然后在一个特定任务的带标签数据集上进行进一步训练，以适应该任务。

了解更多 (Where to Learn More)

BEIT: BERT Pre-Training of Image Transformers

原文链接：arxiv.org