超越 SimCLR、MoCo？BYOL 无负样本的自举式学习法

大家好，欢迎收听播客「听懂 100 篇 AI 经典论文」

我们将拆解一篇在计算机视觉自监督学习领域引起轰动的重要论文—— BYOL：Bootstrap Your Own Latent。在过去，让计算机不依赖大量标注数据就能理解图像是件难事，许多先进方法（比如 SimCLR、MoCo）都依赖“对比学习”：让相似的图片版本靠近，让不相似的图片版本远离。但这需要大量的“不相似”样本（负样本），训练起来很复杂，而且对图片增强方式很敏感。而 BYOL 独辟蹊径，完全不使用负样本，却能达到甚至超越现有最优方法的性能。它是怎么做到的呢？

本期节目，我们就来一起拆解 BYOL 的核心原理、创新点，看看它如何开启自监督学习的“无负样本”新范式！

本期播客你将听到 (Outline)：

为什么自监督学习对于计算机视觉如此重要？我们目前有哪些方法？

传统对比学习方法的挑战：为什么负样本既有用又麻烦？

BYOL 的核心思想：不靠负样本，如何进行自监督学习？

BYOL 的网络架构详解：在线网络 vs. 目标网络，预测器是什么？

BYOL 的训练过程：预测什么？目标网络如何更新？止步梯度 (stop-gradient) 的作用？

BYOL 如何避免“塌陷解”？预测器和移动平均扮演的关键角色。

BYOL 的惊艳表现：ImageNet 线性评估、半监督学习和迁移学习结果展示。

BYOL 的鲁棒性：为什么它对 Batch Size 和图像增强不那么敏感？

与 Mean Teacher 等其他自监督/半监督方法的联系和区别。

关键概念速查 (Key Concepts Explained)：

自监督学习 (Self-Supervised Learning): 利用数据本身的结构或属性生成伪标签，让模型进行自我学习，而无需人工标注。

表示学习 (Representation Learning): 学习输入数据的一种低维、抽象的表示（特征向量），这种表示能够捕捉数据的重要信息，并对下游任务有用。

对比学习 (Contrastive Learning): 一类自监督学习方法，通过拉近“正样本对”（同一数据不同增强版本）的表示，推远“负样本对”（不同数据的增强版本）的表示来学习。

负样本对 (Negative Pairs): 在对比学习中，来自不同原始图像的增强视图，用于增加表示之间的距离。

在线网络 (Online Network): BYOL 中正在主动训练的网络，包含编码器、投影器和预测器。

目标网络 (Target Network): BYOL 中为在线网络提供预测目标的网络，是包含了编码器和投影器（没有预测器）的网络，其参数是在线网络参数的指数移动平均。

预测器 (Predictor): 在线网络中的一个额外 MLP 层，用于预测目标网络的表示。论文认为它是 BYOL 避免塌陷的关键之一。

指数移动平均 (Exponential Moving Average, EMA): 一种参数更新方式，目标网络的参数是根据在线网络参数的历史值进行平滑更新。这使得目标网络比在线网络更稳定，像是更可靠的“老师”。

图像增强 (Image Augmentations): 对输入图像进行随机变换（如裁剪、翻转、颜色失真、模糊等）以生成同一图像的不同“视图”。

线性评估 (Linear Evaluation): 一种评估学到表示质量的标准方法。将预训练模型的编码器冻结，只在其输出表示之上训练一个简单的线性分类器，并在测试集上评估分类性能。

塌陷解 (Collapsed Solutions): 自监督学习中可能出现的一种退化情况，模型学到的表示对于所有输入都相同或信息量极低，无法区分不同输入。

自举 (Bootstrap): 一种学习策略，使用模型自身（通常是模型的某个旧版本或经过处理的输出）作为学习目标3...。BYOL 使用在线网络预测目标网络的输出，并用移动平均更新目标网络，这是一种自举的形式22.

了解更多 (Where to Learn More)：

论文名称: 《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》

原文链接：arxiv.org

GitHub 上提供了实现代码： github.com

本期播客 你将听到 (Outline)：

关键概念速查 (Key Concepts Explained)：

了解更多 (Where to Learn More)：

本期播客你将听到 (Outline)：