

图像界的“完形填空”大师: BEIT 让AI无标签看懂世界!大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 在人工智能飞速发展的今天,视觉Transformer模型在计算机视觉领域展现出巨大的潜力,但它们常常有一个“甜蜜的烦恼”——对海量标注数据极度“饥渴”1。本期播客,我们将深入探讨一篇极具影响力的论文 “BEIT: BERT Pre-Training of Image Transformers”,它提出了一种创新性的自监督学习方法,让视觉Transformer模型能够像自然语言处理领域的BERT 一样,通过“完形填空”游戏来“自学成才”,无需人工标注就能理解图像的深层语义。我们将详细解析BEIT如何通过“图像分词”和“遮盖图像建模”的巧妙设计,不仅大幅提升了模型性能,还让训练过程更高效、更稳定,为视觉AI的未来开辟了新的道路。 本期播客中你将听到 (Outline) 为什么视觉Transformer模型会“数据饥渴”? 深入了解当前视觉AI面临的挑战,以及自监督学习为何成为解决之道。 BERT的成功经验,如何启发视觉领域? 从自然语言处理中的BERT模型3 谈起,解析其“遮盖语言建模”的精髓,以及将其直接应用于图像所面临的挑战。 BEIT的核心思想:图像也有“语言”! 详细介绍BEIT如何将图片转换为离散的“视觉词汇”(visual tokens)序列,这就像为图像创建了一个独特的词典。 BEIT的“完形填空”游戏: * 输入: 原始图片被分割成一个个“图像块”(image patches),其中一部分被随机遮盖(masked)。 * 目标: 模型不是预测被遮盖的像素点,而是预测这些被遮盖区域所对应的“视觉词汇”2...!为什么这种预测更有效?因为它能学习到图像的高层抽象信息,避免陷入像素级的琐碎细节。 * “块状遮盖”(Blockwise Masking): 深入探讨BEIT独特的遮盖策略,以及它如何帮助模型更好地学习图像特征。 BEIT的“预训练-微调”范式: 了解BEIT模型在大量无标签图像上进行预训练后,如何通过简单的“任务层”快速适应各种下游任务,如图像分类和语义分割。 BEIT带来的惊喜: * 卓越的性能表现: BEIT在ImageNet等主流图像数据集上超越了从零开始训练的模型和许多先进的自监督学习方法。 * 更快的收敛速度和更高的稳定性: 预训练后的BEIT模型在微调时表现出更快的收敛速度和更好的稳定性,显著降低了训练成本。 * 自学成才的语义理解能力: 即使没有使用任何人工标注,BEIT的自注意力机制也能学会区分图像中的语义区域和物体边界24...!这对于模型在未知数据上的泛化能力至关重要。 与其他方法的对比与优势: 探讨BEIT如何与对比学习、自蒸馏等其他自监督方法区分开来,并在效率和性能上展现出独特优势26...。 关键概念速查 (Key Concepts Explained) 自监督学习 (Self-supervised Learning):一种机器学习范式,模型通过从数据本身生成“伪标签”来学习,而无需人工标注。BEIT利用“遮盖图像建模”来生成伪标签。 视觉Transformer (Vision Transformer, ViT):将Transformer架构应用于图像处理的模型。它将图像分割成小块(patches),然后将这些图像块作为序列输入到Transformer中进行处理。 BERT (Bidirectional Encoder Representations from Transformers):自然语言处理(NLP)领域的预训练模型,通过“遮盖语言建模”(masked language modeling)任务,预测被遮盖的词汇来学习语言表示。BEIT受其启发。 遮盖图像建模 (Masked Image Modeling, MIM):BEIT提出的预训练任务。它随机遮盖图像中的一部分图像块,然后要求模型预测这些被遮盖区域对应的“视觉词汇”。 图像块 (Image Patches):BEIT将2D图像分割成固定大小的非重叠小块,这些图像块是Vision Transformer的输入单元。例如,一篇224x224的图像可以被分割成14x14个16x16像素的图像块。 视觉词汇 (Visual Tokens):一种离散化的图像表示。BEIT通过一个“图像分词器”(Image Tokenizer),将原始图像转换成一系列离散的视觉词汇。这些词汇来源于一个预先学习好的视觉词典(vocabulary)。 离散变分自编码器 (Discrete Variational Autoencoder, dVAE):用于学习“图像分词器”的模型,它能将图像像素映射为离散的视觉词汇,并能从这些词汇重建图像。BEIT直接使用了DALL-E的公开图像分词器。 块状遮盖 (Blockwise Masking):一种图像遮盖策略,不是随机分散地遮盖单个图像块,而是每次遮盖一整个图像块区域。这被证明对模型学习长距离依赖和高层抽象信息更有益。 微调 (Fine-tuning):在预训练完成后,将预训练好的模型参数作为初始化,然后在一个特定任务的带标签数据集上进行进一步训练,以适应该任务。 了解更多 (Where to Learn More) BEIT: BERT Pre-Training of Image Transformers 原文链接:arxiv.org
DINO的“无声魔法”:自监督ViT如何无师自通“看”懂世界大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」。 视觉Transformer(ViT)模型在计算机视觉领域展现出巨大潜力,但它们通常需要大量标注数据才能发挥作用,并且相比传统卷积网络(convnets)并未展现出独特的优势1。然而,有没有一种方法能让ViT在没有人类标签的情况下,自主学习并“看”懂图像?本期播客将带你深入了解一篇开创性论文《自监督视觉Transformer中涌现的属性》(Emerging Properties in Self-Supervised Vision Transformers),揭示DINO这一简单而强大的自监督学习方法,如何让ViT无师自通地学会了物体分割、图像检索等“特异功能”,甚至超越了传统方法,为视觉AI带来了新的范式。 本期播客中你将听到 (Outline) 为什么Vision Transformer (ViT) 在视觉领域曾面临挑战,以及其与NLP领域Transformer的对比? 自然语言处理 (NLP) 领域的自监督学习 (SSL) 预训练(如BERT中的掩码语言建模)为视觉Transformer带来了哪些启发? DINO:一种新颖的、被解释为“无标签自蒸馏”的自监督学习框架 DINO的核心工作原理:学生-教师网络协同、动量编码器、多裁剪训练以及如何巧妙地避免模型坍塌 自监督ViT涌现的惊人特性: * 自注意力图谱如何自动地、显式地包含图像的语义分割信息,实现无监督对象分割? * 即使不进行任何微调或线性分类器训练,自监督ViT特征在ImageNet上作为k-NN分类器表现为何如此出色? DINO在ImageNet线性评估、图像检索和复制检测等任务上的卓越性能,及其与现有方法的对比 “小补丁”(smaller patches)和其他关键组件(如动量编码器、多裁剪)对ViT性能提升的重要性分析 自监督ViT对未来视觉AI模型发展的深远影响与展望:通向视觉领域类似BERT模型的关键一步 关键概念速查 (Key Concepts Explained) Vision Transformer (ViT): 一种将Transformer架构应用于图像识别的模型,通过将图像分割成不重叠的小块(patches)并将其转化为序列进行处理。 自监督学习 (Self-Supervised Learning, SSL): 一种无需人工标注标签即可学习数据表示的方法。模型通过解决“前置任务”(pretext tasks,从数据本身生成监督信号的任务)来学习图像的内在结构。 DINO: 本论文提出的一种简单而高效的自监督学习方法,其核心思想是“无标签的自蒸馏” (self-distillation with no labels),即学生网络通过预测教师网络的输出进行学习。 自蒸馏 (Self-Distillation): 一种学习范式,训练一个“学生网络”去匹配一个“教师网络”的输出。DINO将这种思想应用于自监督学习,且无需外部标签。 动量编码器 (Momentum Encoder): DINO中教师网络的构建方式,其参数通过学生网络参数的指数移动平均(EMA)动态更新。这种方式能为学生网络提供更稳定、更高质量的学习目标,并且教师网络在训练过程中始终优于学生网络。 多裁剪训练 (Multi-crop Training): 一种数据增强策略,通过从同一图像生成不同分辨率(例如,大尺寸的全局视图和多张小尺寸的局部视图)的多个裁剪,鼓励模型学习“局部到全局”的对应关系,提升特征质量。 模型坍塌 (Model Collapse): 自监督学习中的常见问题,指模型产生退化或无意义的输出(例如,所有输入都映射到相同的特征或单一维度支配输出)。DINO通过对教师输出进行“居中”(centering)和“锐化”(sharpening)来有效避免。 [CLS] Token: Vision Transformer中的一个特殊可学习的“分类”标记。在自监督训练中,即使没有标签监督,它最后一层的自注意力图谱也能自动学习到类别特定的特征,进而实现无监督对象分割,显式地包含了图像的语义分割信息和对象边界。 k近邻分类器 (k-NN Classifier): 一种非参数分类算法,通过查找训练集中与待分类样本最接近的k个样本(邻居)的类别来决定其类别。论文发现自监督ViT特征在这种简单分类器下表现非常出色,无需任何微调、线性分类器训练或数据增强。 了解更多 (Where to Learn More) 论文原文:Emerging Properties in Self-Supervised Vision Transformers
端到端、无锚框、免NMS:DETR 引领物体检测新范式大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 在计算机视觉的浩瀚世界中,物体检测(Object Detection)一直是个核心挑战。传统的物体检测方法,如Faster R-CNN,像一个“精明但繁琐的侦探”,需要经过生成大量“候选框”猜测物体位置、逐一分类和微调,最后还要经历复杂的“非极大值抑制(NMS)”去重步骤。这个流程充满了手工设计的规则和经验,不仅复杂,还容易引入额外的误差。 本期播客,我们将和你深入了解一篇划时代的论文——DETR (DEtection TRansformer)。它犹如一位“直觉敏锐且高效的侦探”,以一种端到端(End-to-End)Transformer架构和二分匹配损失函数,彻底移除了传统检测器中繁琐的锚框生成和NMS后处理等手写组件。它能够并行地一次性预测出图像中所有物体的最终边界框和类别。这种简洁而优雅的设计,不仅在性能上能与高度优化的Faster R-CNN相媲美,尤其在大型物体检测上表现卓越,更展现出惊人的泛化能力和在全景分割等其他任务上的扩展潜力。 本期播客中你将听到 (Outline): 物体检测的“痛点” * 传统物体检测流程的复杂性:为什么需要大量候选框、锚框和NMS? * 它们如何影响检测器的性能和设计? DETR的诞生:直觉与革新 * “直接集合预测”的核心思想:从根本上简化检测流程 * Transformer:物体检测的新大脑 DETR模型深度解析:三大核心组件 CNN骨干网络:图像特征的提取者 Transformer编码器 (Encoder): * 如何通过“全局注意力”机制理解图像中的物体关系? * 它如何帮助模型“分离”不同的实例? Transformer解码器 (Decoder): 神秘的“物体查询(Object Queries)”:它们是什么,如何找到物体? 并行预测固定数量的物体,为什么能取代NMS? 前馈网络 (FFN):将解码器输出转化为最终预测 DETR的“智能匹配机制”:二分匹配损失 * 为什么需要一对一的匹配? * 匈牙利算法的巧妙应用:如何找出最佳预测-真实物体匹配? * 分类损失与边界框损失的结合:L1损失和广义IoU (GIoU) 损失 * 为何DETR能“免去”NMS? DETR的亮眼表现与挑战 * 与Faster R-CNN的性能对比:整体相当,大物体检测优势显著 * 对小物体检测的挑战和未来展望 * 令人惊叹的泛化能力:如何检测训练集中未曾出现过的物体数量? * 简洁、易于实现和强大的扩展性:轻松应用于全景分割。 总结与展望 * DETR对物体检测领域的深远影响。 * 未来研究的方向和可能性。 关键概念速查 (Key Concepts Explained): 物体检测 (Object Detection):一项计算机视觉任务,旨在识别图像中特定类别的物体,并用边界框精确地定位它们。 端到端 (End-to-End):指一个深度学习模型能够直接从原始输入(如图像)预测最终输出(如物体检测结果),而无需中间复杂的、手动设计的步骤或后处理。 Transformer:一种基于注意力机制的神经网络架构,最初用于自然语言处理,后被发现对处理序列数据和建模全局关系非常有效。DETR是将其引入物体检测的开创性工作之一。 编码器-解码器架构 (Encoder-Decoder Architecture):Transformer的核心结构,编码器处理输入序列并生成其表示,解码器则根据这个表示和一些查询生成输出序列。 自注意力机制 (Self-Attention):Transformer中的关键组件,允许模型在处理序列中的某个元素时,能够“关注”到序列中的所有其他元素,并捕获它们之间的相互关系。这赋予了DETR强大的全局推理能力。 物体查询 (Object Queries):DETR解码器的固定数量的输入嵌入(learned positional embeddings),它们类似于“学习到的查询向量”,用于在全局图像特征中寻找和识别物体。 二分匹配损失 (Bipartite Matching Loss):DETR特有的损失函数,利用匈牙利算法(Hungarian algorithm)在预测结果和真实标签之间建立一种唯一的一对一匹配。这确保了每个真实物体只被一个预测框匹配,从而避免了重复预测。 非极大值抑制 (NMS, Non-Maximum Suppression):传统物体检测中常用的后处理步骤,用于去除那些重复的、高度重叠的边界框预测,只保留置信度最高的那个。DETR通过二分匹配损失彻底省去了NMS。 锚框生成 (Anchor Generation):传统检测器预先定义的一系列不同大小和长宽比的边界框,作为检测的“初始猜测”。模型会基于这些锚框进行回归和分类。DETR移除了对锚框的依赖 广义IoU (GIoU) 损失 (Generalized IoU Loss):一种衡量边界框重叠程度的损失函数,相比传统的IoU损失,它在两个框不重叠时也能提供梯度,从而更好地优化边界框的回归。 全景分割 (Panoptic Segmentation):一项更复杂的图像理解任务,它结合了实例分割(识别和分割图像中的每个独立物体)和语义分割(为图像中的每个像素分配类别),要求为图像中的所有像素进行分类,并对“事物”(things,如人、车)进行实例区分,对“背景”(stuff,如天空、草地)进行语义区分1...。DETR可以轻松扩展到此任务。 了解更多 (Where to Learn More): 论文名称:End-to-End Object Detection with Transformers 原文地址:https://arxiv.org/pdf/2005.12872 官方代码库:github.com
降本增效的 AI 黑科技:BLIP-2 如何用更少参数实现更强多模态能力?大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 在人工智能领域,让机器“看懂”图片并“理解”语言,甚至还能两者兼顾并自由生成,一直是研究的热点和难点。传统的视觉-语言预训练(VLP)模型虽然能力强大,但由于**端到端训练大型模型和海量数据集**,其训练成本和计算资源消耗日益成为一个严峻的挑战。 本期节目,我们将深入探讨一个备受瞩目的 AI 研究成果——BLIP-2。它提出了一种通用且计算高效的预训练策略,其核心创新在于巧妙地利用了现成的、冻结(Frozen)的预训练图像编码器和冻结的大型语言模型(LLMs)。BLIP-2通过一个名为Querying Transformer (Q-Former) 的轻量级模型来弥合视觉和语言之间的模态鸿沟,这个模块仅包含1.88亿参数,远低于现有多数视觉语言模型 。 本期播客中你将听到 当前视觉-语言预训练(VLP)面临的挑战:为何大规模端到端训练成本高昂且不灵活? BLIP-2的核心创新:如何通过“引导式(bootstrapping)”策略,高效利用并连接“冻结”的图像专家和语言专家,同时避免灾难性遗忘问题? “翻译官”Querying Transformer (Q-Former) 的工作原理:这个轻量级转换器如何作为图像编码器和大型语言模型之间的信息瓶颈,精准提取并过滤出最有用的视觉特征? BLIP-2独创的“两阶段预训练策略”详解: * 第一阶段:视觉-语言表征学习——Q-Former如何通过图像-文本对比学习(ITC)、图像生成文本(ITG)和图像-文本匹配(ITM)三种目标,学习与文本最相关的视觉表征 。 * 第二阶段:视觉-语言生成学习——Q-Former如何将提炼出的视觉信息线性投影后作为“软视觉提示”送入冻结的大型语言模型,解锁其强大的语言生成能力 。 BLIP-2的卓越性能:在视觉问答、图像描述生成和图像-文本检索等任务上,它如何以极少的训练参数超越现有最先进模型 。 BLIP-2带来的“新兴能力”:模型如何在零样本情境下,理解自然语言指令,进行视觉知识推理、视觉常识推理和视觉对话? BLIP-2的局限性与未来展望:它在少样本情境学习(in-context learning)上的表现,以及继承自大型语言模型的潜在风险(如输出冒犯性语言或社会偏见)。 💡 关键概念速查 (Key Concepts Explained): 冻结图像编码器 (Frozen Image Encoders):指在BLIP-2训练过程中保持参数不变(即“冻结”)的预训练图像模型 。它们负责提供高质量的视觉特征,而无需额外的训练成本 。 冻结大型语言模型 (Frozen Large Language Models - LLMs):与图像编码器类似,这些强大的语言模型(如OPT或FlanT5)在BLIP-2的训练期间也保持固定。它们提供了强大的语言生成和零样本迁移能力 。冻结它们有助于降低计算成本,并防止其语言知识的“灾难性遗忘”。 Querying Transformer (Q-Former):这是BLIP-2中可训练的、轻量级核心模块,包含1.88亿参数 。它像一个信息瓶颈,使用一组可学习的查询向量(在实验中使用了32个查询向量,每个768维度),从冻结的图像编码器中提取最有用、与文本最相关的视觉特征。然后,它将这些提炼出的信息传递给冻结的LLM 。 两阶段预训练 (Two-Stage Pre-training):这是Q-Former特有的训练策略 。 * 第一阶段(表征学习):侧重于训练Q-Former学习与文本高度相关的视觉表征,通过图像-文本对比学习(ITC)、图像生成文本(ITG)和图像-文本匹配(ITM)等目标实现 。这一阶段对弥合模态鸿沟至关重要,它确保Q-Former提取的视觉特征对语言模型是有意义且可解释的。 * 第二阶段(生成学习):将Q-Former连接到冻结的LLM,训练Q-Former使其输出的视觉表征能够被LLM理解,从而进行语言生成 。通过软视觉提示,Q-Former引导LLM进行文本生成,同时减轻LLM学习视觉-语言对齐的负担 。 📚 了解更多 (Where to Learn More): 论文名称:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 原文地址:https://arxiv.org/pdf/2301.12597 GitHub: github.com
把模型“切开”喂给 GPU:Megatron-LM 的并行奥秘大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 为何当今的自然语言处理(NLP)领域,模型变得越来越大?因为经验表明,更大的 Transformer 语言模型能显著提升 NLP 任务的性能。 然而,训练这些动辄数十亿甚至万亿参数的“巨无霸”模型面临一个核心挑战:它们往往太大,无法全部载入单个处理器(如 GPU)的内存中,特别是考虑到优化器状态等额外内存需求。现有的模型并行方法,如 GPipe 或 Mesh-Tensorflow,虽然能克服内存限制,但通常需要重写模型或依赖定制的编译器/框架,门槛较高。 本期播客里我们探讨的 Megatron-LM ,是来自英伟达(NVIDIA)的研究论文,它提出了一种简单高效的层内模型并行方法(intra-layer model parallelism)。 我们来看看这项技术如何仅仅通过在现有 PyTorch 中插入几个简单的通信操作,就成功训练出高达 83 亿参数的 Transformer 模型。 本期播客中你将听到 (Outline): 为什么我们需要训练越来越大的语言模型?更大的模型带来了哪些挑战? 传统的分布式训练方法(如数据并行)以及一些现有模型并行方法(GPipe, Mesh-Tensorflow)的局限性在哪里? Megatron-LM 的核心思想:简单高效的层内模型并行 * 它为什么被认为是简单和高效的?(无需新编译器,仅需少量 PyTorch 通信操作) * 它如何利用 Transformer 模型的结构特点进行并行? 层内并行具体实现: * 在多层感知机 (MLP) 中,权重矩阵如何分割以实现并行计算 * 在自注意力 (Self-Attention) 模块中,Keys (K)、Queries (Q)、Values (V) 如何并行化? * 整个 Transformer 层(Self-Attention + MLP)在前向和反向传播中只需要多少次通信操作?(每个模块 2 次 All-reduce,一层共 4 次) * 如何处理输出嵌入层和损失计算,以最大程度地减少通信量?(词汇维度并行化,损失计算融合) * Dropout、Layer Normalization 和残差连接等操作如何处理?(复制计算以避免通信) 大规模训练的实践: * Megatron-LM 如何与数据并行结合形成混合并行策略? * 他们使用了多大的模型(最大 8.3B 参数)和多少块 GPU(最多 512 块)进行训练 * Megatron-LM 在不同规模下的扩展性分析,弱扩展性效率如何?(高达 76%) * Attention head 数量对扩展效率的影响是什么? * Megatron-LM 在训练较小模型时也能带来速度提升吗?(强扩展性) 模型尺寸与性能的关系: * 增大 GPT-2 模型尺寸(从 355M 到 8.3B)如何影响困惑度? * 为什么原始 BERT 架构在模型尺寸增大时会性能下降? * Megatron-LM 如何通过调整层归一化和残差连接的位置来解决 BERT 的训练稳定性问题? * 使用优化后的 BERT 架构,增大模型尺寸(从 336M 到 3.9B)如何影响下游任务性能? Megatron-LM 取得的 SOTA 结果: GPT-2 模型在 WikiText103 (困惑度 10.8) 和 LAMBADA (准确率 66.5%) 上的表现 ◦ BERT 模型在 RACE (准确率 90.9%) 上的表现 关键概念速查 (Key Concepts Explained): Transformer 模型 (Transformer Model): 一种基于自注意力机制的神经网络架构,是现代大型语言模型(如 BERT, GPT-2)的基础。 模型并行 (Model Parallelism): 一种分布式训练技术,将模型的权重或计算分布到多个设备上,用于训练单个设备无法容纳的大模型。 数据并行 (Data Parallelism): 一种分布式训练技术,将训练数据批量分割到多个设备上独立处理,然后同步梯度。 层内模型并行 (Intra-layer Model Parallelism): Megatron-LM 采用的模型并行方法,将 Transformer 层内部的计算(如线性层、注意力计算)分割到多个设备上并行处理 多层感知机 (MLP): Transformer 层中的一个前馈网络块,包含两个线性层和激活函数。在 Megatron-LM 中,其线性层被按列和按行分割并行化 自注意力 (Self-Attention): Transformer 的核心机制,允许模型关注输入序列中的不同部分。Megatron-LM 按注意力头并行化 Key, Query, Value 的计算 . GeLU 激活函数 (GeLU Activation): 一种常用的非线性激活函数,在并行 MLP 中可以独立应用 层归一化 (Layer Normalization): 一种用于稳定神经网络训练的技术。在大型 BERT 模型中,其位置对训练稳定性至关重要 。 残差连接 (Residual Connection): 一种跳跃连接,帮助梯度更好地反向传播,常用于深度神经网络 . All-reduce (全约简): 一种集合通信操作,用于在分布式设备组上汇总数据(如求和)并将结果分发给所有设备。Megatron-LM 使用它来同步并行计算的结果。 SOTA (State-of-the-Art): 指在特定任务或数据集上目前公认的最佳性能结果 困惑度 (Perplexity, PPL): 衡量语言模型对文本序列预测能力的一个指标,值越低越好 扩展效率 (Scaling Efficiency): 衡量随着使用设备数量增加,模型训练吞吐量相对于理想线性加速的比例 . 了解更多 (Where to Learn More): 论文名称: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 原文链接:https://arxiv.org/pdf/1909.08053 开源代码: :github.com
告别标签时代?SimCLR 的无监督视觉表征学习魔法大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 我们今天将聊聊一篇在计算机视觉领域影响深远、非常“朴实无华但又强大”的论文—— SimCLR: A Simple Framework for Contrastive Learning of Visual Representations。在过去,让计算机理解图片内容,大多需要海量标注好的数据,这耗时耗力。而 SimCLR 提出了一种简单有效的自监督学习框架,它不需要任何人工标签,仅通过让模型学会识别同一张图片的不同“变形”(也就是经过数据增强后的不同视图),就能够学习到高质量的图像表征,甚至在 ImageNet 等复杂数据集上性能媲美甚至超越了传统监督学习的模型。 本期节目将带你深入了解 SimCLR 的核心思想、它为何如此有效,以及它如何为无监督和半监督学习带来了巨大的进步。 本期播客中你将听到 (Outline): 为什么需要自监督学习? 介绍传统监督学习对标签的依赖,以及无监督/自监督学习的价值和挑战。 什么是对比学习 (Contrastive Learning)? 解释对比学习的基本思想:拉近相似样本,推开不相似样本。 SimCLR 的核心框架是什么? 详细讲解 SimCLR 的四个主要组成部分:数据增强模块、基础编码器、投影头和对比损失函数。 让 SimCLR 强大的秘密是什么? 深入分析论文中发现的,对 SimCLR 性能至关重要的几个要素: * 数据增强的巧妙组合: 为什么仅仅随机裁剪不够?组合颜色失真等多种增强为什么是关键?对比学习为什么需要比监督学习更强的数据增强? * 非线性投影头的奇效: 为什么在提取的表征后加一个小的非线性网络能大幅提升效果?为什么最终使用投影之前的表征更好?1... * 批量大小和训练时长的影响: 为什么更大的 Batch Size 和更长的训练时间对 SimCLR 如此重要? * 归一化对比损失 (NT-Xent) 和温度参数: NT-Xent 损失函数如何工作?温度参数 τ 有什么作用?它如何帮助模型从“难负例”中学习?3... SimCLR 取得了哪些令人瞩目的成果? 分享 SimCLR 在 ImageNet 等数据集上,在线性评估、半监督学习和迁移学习任务中取得的 SOTA (State-of-the-Art) 结果。 SimCLR 为何能做到“简单”? 它如何避免了之前方法所需的特殊架构或记忆库? SimCLR 的意义和影响: 这篇论文如何进一步推动了自监督学习的发展,并展示了其巨大的潜力。 关键概念速查 (Key Concepts Explained): 自监督学习 (Self-supervised learning): 一种机器学习方法,它利用数据本身的结构作为监督信号来训练模型,从而学习到数据的有用表征,无需人工标注的标签。 对比学习 (Contrastive Learning): 自监督学习的一种流行范式。核心思想是训练模型,使得相似的样本在嵌入空间中相互靠近,不相似的样本相互远离。 视觉表征 (Visual Representation): 神经网络编码器从图像中提取的、包含了图像关键信息的向量或特征。好的视觉表征能够捕捉到物体的形状、纹理、颜色等有意义的特征。 数据增强 (Data Augmentation): 对原始图像应用一系列随机变换(如裁剪、翻转、颜色变化、模糊等)来生成新的训练样本的技术。在 SimCLR 中,数据增强用于创建同一图像的不同“视图”作为正样本对。 正样本对 (Positive Pair): 通过对同一张原始图片应用两组不同的数据增强操作而产生的两个相关的“视图”。SimCLR 训练的目标是让正样本对的表征相似。 负样本 (Negative Sample): 在 SimCLR 的 Batch 中,与当前正样本对中的某个视图来自不同原始图片的增强视图。它们被视为负样本,训练目标是让它们的表征与正样本对的视图相距较远。 神经网络编码器 f(·) (Neural Network Base Encoder f(·)): 将增强后的图片输入,提取出其原始表征 (h) 的深度学习模型,通常是 ResNet 等标准架构。训练完成后,这个编码器用于下游任务。 投影头 g(·) (Projection Head g(·)): 一个小型神经网络(通常是一个带非线性的 MLP),位于编码器之后。它将编码器输出的表征 (h) 映射到另一个空间 (z) 用于计算对比损失。论文发现使用非线性投影头能提高其输入(即 h)的表征质量。训练完成后,这个投影头通常会被丢弃。 NT-Xent 损失 (Normalized Temperature-scaled Cross Entropy Loss): SimCLR 使用的对比损失函数22。它基于交叉熵损失,但计算的是经过 L2 归一化(Cosine 相似度)并除以温度参数 τ 后的相似度。它鼓励正样本对的相似度高,负样本的相似度低9...。 温度参数 τ (Temperature τ): NT-Xent 损失函数中的一个可调参数。它控制着相似度分数的分布陡峭程度,影响模型对不同难度负样本的学习。适当的 τ 可以帮助模型更好地从那些与正样本“有点像”的难负例中学习。 了解更多 (Where to Learn More): 原始论文链接: A Simple Framework for Contrastive Learning of Visual Representations (你可以在这里找到论文原文,查看更多技术细节和实验结果) 项目代码库: github.com (如果你想动手实践或深入研究代码实现,可以访问这个库)
超越 SimCLR、MoCo?BYOL 无负样本的自举式学习法大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 我们将拆解一篇在计算机视觉自监督学习领域引起轰动的重要论文—— BYOL:Bootstrap Your Own Latent。在过去,让计算机不依赖大量标注数据就能理解图像是件难事,许多先进方法(比如 SimCLR、MoCo)都依赖“对比学习”:让相似的图片版本靠近,让不相似的图片版本远离。但这需要大量的“不相似”样本(负样本),训练起来很复杂,而且对图片增强方式很敏感。而 BYOL 独辟蹊径,完全不使用负样本,却能达到甚至超越现有最优方法的性能。它是怎么做到的呢? 本期节目,我们就来一起拆解 BYOL 的核心原理、创新点,看看它如何开启自监督学习的“无负样本”新范式! 本期播客 你将听到 (Outline): 为什么自监督学习对于计算机视觉如此重要?我们目前有哪些方法? 传统对比学习方法的挑战:为什么负样本既有用又麻烦? BYOL 的核心思想:不靠负样本,如何进行自监督学习? BYOL 的网络架构详解:在线网络 vs. 目标网络,预测器是什么? BYOL 的训练过程:预测什么?目标网络如何更新?止步梯度 (stop-gradient) 的作用? BYOL 如何避免“塌陷解”?预测器和移动平均扮演的关键角色。 BYOL 的惊艳表现:ImageNet 线性评估、半监督学习和迁移学习结果展示。 BYOL 的鲁棒性:为什么它对 Batch Size 和图像增强不那么敏感? 与 Mean Teacher 等其他自监督/半监督方法的联系和区别。 关键概念速查 (Key Concepts Explained): 自监督学习 (Self-Supervised Learning): 利用数据本身的结构或属性生成伪标签,让模型进行自我学习,而无需人工标注。 表示学习 (Representation Learning): 学习输入数据的一种低维、抽象的表示(特征向量),这种表示能够捕捉数据的重要信息,并对下游任务有用。 对比学习 (Contrastive Learning): 一类自监督学习方法,通过拉近“正样本对”(同一数据不同增强版本)的表示,推远“负样本对”(不同数据的增强版本)的表示来学习。 负样本对 (Negative Pairs): 在对比学习中,来自不同原始图像的增强视图,用于增加表示之间的距离。 在线网络 (Online Network): BYOL 中正在主动训练的网络,包含编码器、投影器和预测器。 目标网络 (Target Network): BYOL 中为在线网络提供预测目标的网络,是包含了编码器和投影器(没有预测器)的网络,其参数是在线网络参数的指数移动平均。 预测器 (Predictor): 在线网络中的一个额外 MLP 层,用于预测目标网络的表示。论文认为它是 BYOL 避免塌陷的关键之一。 指数移动平均 (Exponential Moving Average, EMA): 一种参数更新方式,目标网络的参数是根据在线网络参数的历史值进行平滑更新。这使得目标网络比在线网络更稳定,像是更可靠的“老师”。 图像增强 (Image Augmentations): 对输入图像进行随机变换(如裁剪、翻转、颜色失真、模糊等)以生成同一图像的不同“视图”。 线性评估 (Linear Evaluation): 一种评估学到表示质量的标准方法。将预训练模型的编码器冻结,只在其输出表示之上训练一个简单的线性分类器,并在测试集上评估分类性能。 塌陷解 (Collapsed Solutions): 自监督学习中可能出现的一种退化情况,模型学到的表示对于所有输入都相同或信息量极低,无法区分不同输入。 自举 (Bootstrap): 一种学习策略,使用模型自身(通常是模型的某个旧版本或经过处理的输出)作为学习目标3...。BYOL 使用在线网络预测目标网络的输出,并用移动平均更新目标网络,这是一种自举的形式22. 了解更多 (Where to Learn More): 论文名称: 《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》 原文链接:https://arxiv.org/pdf/2006.07733 GitHub 上提供了实现代码: github.com
刷新 ImageNet 记录!MAE:计算机视觉的 BERT 时刻来了?大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 我们今天聊聊一篇计算机视觉领域的重磅论文:Masked Autoencoders (MAE)。在自然语言处理 (NLP) 领域,像 BERT 这样的“蒙版语言模型”通过遮住部分文本让模型去预测,取得了巨大的成功。那么,这个思路在视觉领域也行得通吗?答案是肯定的!这篇发表在 2021 年的论文展示了一种简单、高效且可扩展的自监督学习方法 MAE,它通过随机遮盖输入图像的大量区域,然后训练模型重建被遮盖部分的像素。 听起来很简单,但它带来了两大关键创新:一个非对称的编码器-解码器架构,以及极高的遮盖比例(比如 75%)。这不仅让预训练过程效率大幅提升(训练时间缩短 3 倍或更多),还使得 MAE 在 ImageNet 分类任务上达到了最顶尖的准确率,并且在下游的目标检测和语义分割任务上展现出超越监督预训练的强大迁移能力和良好的可扩展性。 本期节目,我们就来聊聊 MAE 的核心思想、巧妙设计以及它如何为计算机视觉的自监督学习开辟新的道路。 本期播客中你将听到 (Outline): 深度学习的“数据饥渴”与自监督学习的崛起:为什么我们需要自监督预训练?回顾 NLP 中 BERT 等方法的成功。 MAE 的核心思想:给 AI 看一张打码的图片,让它猜原图长啥样。 设计亮点一:非对称架构的秘密: * 编码器 (Encoder):只处理可见的那一部分图像补丁,大大节省计算。 * 解码器 (Decoder):一个轻量级的模型,负责从编码器的输出和“占位符”(掩码标记)重建完整的图像像素。 * 为什么这个非对称设计如此高效?(计算量主要集中在编码器,现在只处理 25% 的数据)。 * 预训练后,解码器就被丢弃,只使用编码器进行下游任务3...。 设计亮点二:大胆的高比例遮盖: * 遮盖 75% 的图像?这听起来反直觉,但在视觉中效果最好。 * 为什么高比例遮盖在视觉中有效,而在 NLP 中用 15%?(图像的空间冗余高,低比例遮盖太容易猜;高比例遮盖迫使模型理解整体结构和语义)。 * 随机采样遮盖策略效果最好。 重建什么?像素就够了:为什么重建原始像素值是有效的,甚至比预测离散的视觉标记更简单高效。 惊艳的训练效果: * 在 ImageNet-1K 上实现了最优准确率。 * 训练时间大幅缩短。 * 对数据增强依赖低。 * 训练时间越长效果越好。 强大的迁移能力:在目标检测 (COCO) 和语义分割 (ADE20K) 等任务上超越监督预训练,展现出良好的扩展性 重新理解模型能力:MAE 提示我们,线性可分性不是评估表示质量的唯一标准,它学习到了强大的非线性特征 总结与展望:MAE 为视觉领域的自监督学习带来了新的曙光,预示着视觉模型未来可能像 NLP 模型一样实现大规模可扩展的训练7...。 关键概念速查 (Key Concepts Explained): 自监督学习 (Self-supervised learning): 利用数据自身的结构信息作为监督信号来训练模型,无需人工标注。 Masked Autoencoder (MAE): 一种自编码器,通过重建输入中被遮盖(屏蔽)的部分来学习表示。 Vision Transformer (ViT): 一种将图像切分成小块(patches),然后用 Transformer 架构处理的神经网络模型。 编码器-解码器 (Encoder-Decoder): 神经网络的一种常见架构,编码器将输入转换为一个表示(latent representation),解码器再从这个表示生成输出。MAE 采用的是非对称设计。 遮盖比例 (Masking Ratio): 输入图像中被遮盖掉的补丁(patches)所占的比例。 图像补丁 (Image Patches): 将一张图片分割成的规整的、不重叠的小区域。 掩码标记 (Mask Token): 在解码器中用来表示被遮盖位置的特殊标记,是一个可学习的向量。 位置嵌入 (Positional Embedding): 添加到输入标记(包括图像补丁和掩码标记)上的向量,用于向模型提供它们在原始图像中的位置信息。 像素重建 (Pixel Reconstruction): 模型的训练目标,即精确地预测出被遮盖区域的原始像素值。 线性探测 (Linear Probing): 一种评估预训练模型表示能力的方法,固定预训练模型的主体参数,只训练一个在其输出层之上的线性分类器。 微调 (Fine-tuning): 在下游任务上,使用少量有标签数据,对整个或部分预训练模型进行进一步训练,调整模型参数以适应新任务。 空间冗余 (Spatial Redundancy): 图像中相邻区域通常包含高度相似的信息,存在大量重复或可预测的内容。 格式塔 (Gestalt): 指事物的整体结构、形式或模式,强调整体大于部分之和。 了解更多 (Where to Learn More): 论文名称: Masked Autoencoders Are Scalable Vision Learners 原文地址:https://arxiv.org/pdf/2111.06377
Transformer 的“旋转魔法”:RoFormer 的革命性位置编码大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 在本期节目中,我们将探讨一篇关于自然语言处理(NLP)论文:RoFormer: Enhanced Transformer with Rotary Position Embedding。大家都知道,Transformer模型在处理文本时非常强大,但它最初并不像RNN那样天然理解词语的顺序。位置信息对于理解自然语言至关重要。 这篇论文提出了一种新颖而强大的方法,叫做旋转位置嵌入(RoPE),它通过一种巧妙的“旋转”方式将位置信息融入模型中。我们将讲解RoPE如何工作,它带来了哪些优秀的特性,以及基于RoPE构建的RoFormer模型在各种NLP任务,特别是长文本处理和模型训练速度上展现出的显著优势。无论你是NLP爱好者、机器学习研究者,还是对大型语言模型背后的技术感到好奇,本期节目都将为你提供富有启发性的视角。 本期播客中你将听到 (Outline) 为什么文本顺序(位置信息)对理解语言如此重要?(比如“我爱你”和“你爱我”的区别) Transformer模型最初是如何处理位置信息的?它的“位置盲”问题是什么? 回顾一些现有的位置编码方法(绝对位置编码、相对位置编码)及其原理。 介绍:什么是旋转位置嵌入(RoPE)? 它与传统方法有何不同? RoPE的核心思想:如何通过“旋转”将位置信息编码到词向量中(可能用2D平面上的向量旋转类比) RoPE的数学原理初步解析:旋转矩阵的作用,如何自然地体现相对位置关系 RoPE带来的三大优秀特性:序列长度灵活性、长距离关联衰减、兼容线性注意力机制 RoFormer模型登场: 将RoPE应用到Transformer架构上. RoFormer在不同任务上的实验表现: 机器翻译 预训练加速(与BERT对比) ◦GLUE基准测试结 与线性注意力模型Performer的结合 在中文长文本任务上的显著优 论文作者提到的RoFormer的局限性和未来探索方 关键概念速查 (Key Concepts Explained): Transformer: 基于自注意力机制的神经网络架构,是当前许多大型语言模型(如BERT, GPT系列)的基础 最初的版本在处理位置信息方面存在不足. 位置编码 (Position Encoding): 在Transformer模型中,用于向模型输入序列中注入词语位置信息的方 自注意力机制 (Self-Attention): Transformer的核心组成部分,允许模型在处理序列的某个词时,考虑序列中所有词的重要性(权重) 它通过计算查询(Query)和键(Key)的点积来确定注意力权重. 绝对位置编码 (Absolute Position Embedding): 直接为序列中的每个位置分配一个唯一的向量(可以是预定义的或学习得到的),然后加到词向量上 相对位置编码 (Relative Position Embedding): 试图在计算注意力权重时,直接考虑词与词之间的相对距离,而不是它们的绝对位置 旋转位置嵌入 (Rotary Position Embedding, RoPE): 本篇论文提出的一种新颖位置编码方法。它通过对词向量应用旋转矩阵来编码位置,巧妙地使Query和Key的点积自然包含相对位置信息 RoFormer: 将RoPE应用于Transformer架构后得到的增强模型. 线性注意力 (Linear Attention): 一种替代标准自注意力的方法,旨在降低计算复杂度(从序列长度的平方O(N²)降至线性O(N)。RoPE可以与线性注意力兼容 长距离关联衰减 (Decaying Inter-token Dependency): RoPE的一个特性,随着词语之间相对距离的增加,它们之间的关联度(通过点积体现)会自然减弱 了解更多 (Where to Learn More): 本期论文名称:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING 论文原文: https://arxiv.org/pdf/2104.09864 Hugging Face Transformers 库中的 RoFormer: huggingface.co4 (如果想在代码中使用RoFormer) 论文作者提供的实验代码 (GitHub): github.com28 Transformer 原始论文: "Attention Is All You Need" (了解Transformer基础) BERT 原始论文: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" (了解BERT及其使用的绝对位置编码)
参数暴增,计算不变:Switch Transformer如何打破AI模型规模瓶颈大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 本期节目,我们解读这划时代的论文——Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity。它提出了一种全新的神经网络架构,Switch Transformer,通过引入简洁高效的“稀疏”机制,成功训练出万亿参数级别的语言模型,并实现了前所未有的训练效率提升。Switch Transformer 如何做到参数量激增,计算量却基本不变?它背后的‘专家混合’思想是什么?这项技术将如何改变AI大模型的未来?欢迎和我们一起揭开Switch Transformer的神秘面纱! 本期播客中你将听到 (Outline) 什么是传统的全连接(Dense)模型,以及它们如何使用参数。 Mixture of Experts (MoE) 的基本思想:让模型学会选择性地使用参数。 Switch Transformer 的核心创新:简化MoE,只选择一个“专家”来处理输入(k=1路由)。 Switch Transformer 为什么能大幅提升参数量同时保持计算量恒定。 Switch Transformer 带来的显著优势: * 预训练速度提升(相比T5模型) * 扩展到万亿参数规模的可能性 * 在多语言任务上的普遍性能提升。 * 优秀的下游任务(Fine-tuning)表现 * 支持模型蒸馏,压缩大模型尺寸 Switch Transformer 如何解决MoE模型训练中的挑战(复杂性、通信成本、不稳定性)。 简化的路由机制和通信优化。 改进的训练技巧:选择性精度、小参数初始化、专家 Dropout。 可微分的负载均衡损失。 理解分布式训练中的几种并行方式:数据并行、模型并行、以及Switch Transformer独特的专家并行。如何结合这些并行策略训练超大模型。 Switch Transformer 在较低计算资源下是否依然有效。 部署超大模型的挑战与蒸馏技术的应用。 Switch Transformer 未来的研究方向和潜在影响。 关键概念速查 (Key Concepts Explained): Transformer: 一种流行的神经网络架构。 Mixture of Experts (MoE): 专家混合模型,根据输入选择性激活模型参数。 稀疏激活 (Sparsely-activated): 指模型在处理每个输入时,只激活模型中的一部分参数。与密集激活 (Densely-activated) 相对。 Experts (专家): MoE 或 Switch Transformer 中的子网络,每个“专家”擅长处理不同类型的数据或任务。 Router (路由器/门控网络): 负责决定将输入路由到哪个或哪些专家的部分。 Switch Layer: Switch Transformer 中简化的 MoE 层,每个输入只路由到一个专家 (k=1路由)。 Expert Capacity (专家容量): 每个专家在批次中可以处理的最大 token 数量。 Load Balancing Loss (负载均衡损失): 一种辅助损失,用于鼓励 token 在不同专家之间均匀分配。 选择性精度 (Selective precision): 在模型部分计算(如路由器)中使用较高精度(如 float32),而在其他部分使用较低精度(如 bfloat16),以提高训练稳定性。 专家 Dropout (Expert Dropout): 在专家层内部使用比其他层更高的 Dropout 率,以防止过拟合.。 数据并行 (Data Parallelism): 将训练数据分布到不同的设备上,每个设备有完整的模型副本。 模型并行 (Model Parallelism): 将模型参数分布到不同的设备上。 专家并行 (Expert Parallelism): 将不同的专家分布到不同的设备上。 模型蒸馏 (Distillation): 将一个大型(通常是性能更好)的“教师”模型学到的知识转移到一个小型“学生”模型中。 了解更多 (Where to Learn More): 论文原文: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 原文链接:https://arxiv.org/pdf/2101.03961 开源代码 (JAX/T5X): github.com/google-research/t5x 开源代码 (Tensorflow): github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py
大模型自主进化:VOYAGER 如何在Minecraft中不断学习技能大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 一个AI被丢进《我的世界》,没有手把手的教学,它能自己学会如何砍树、挖矿、制作工具,甚至最终挖到钻石,成为游戏大师吗?过去,这很困难。但今天我们要聊的 VOYAGER 做到了!它是一个基于大型语言模型(LLM)的智能体,能够在《我的世界》这样开放、复杂的环境中,无需人类干预,持续地探索、学习各种复杂的技能,并且不断有新的发现1...。它在探索新物品、攀升科技树和探索地图等方面,都远远超过了以往的方法1...。最酷的是,它学会的技能是可以复用的,并且可以在新的世界里帮助它更快地适应和解决问题 本期播客中你将听到 (Outline) 什么是VOYAGER? 了解这个AI智能体在《我的世界》中“生存”的背景和目标。 VOYAGER 强大的秘密武器: 自动课程表: 它是如何知道下一步该学什么、做什么,确保学习过程既有挑战又不至于卡死? 技能库: 它学到的各种复杂操作是如何被记录、存储和重复使用的,让能力像滚雪球一样越滚越大? 迭代式提示机制: 当它尝试完成任务失败时,是如何从“错误”中学习,不断改进自己的行为(代码)的?我们会详细解析环境反馈、执行错误和自我验证这三种重要的反馈机制。 VOYAGER的表现到底有多强? 对比其他AI方法,VOYAGER在发现新物品、解锁科技树、探索地图等方面的惊人成绩。 技能库的价值: VOYAGER学会的技能有多通用?它能在新世界里快速适应吗?甚至能帮助其他AI提升能力吗? 为什么需要GPT-4? 探究强大的语言模型在VOYAGER中扮演的关键角色。 局限性与未来: 当前版本的VOYAGER还有哪些不足?未来的发展方向是什么? 关键概念速查 (Key Concepts Explained) VOYAGER: 本期播客的主角,一个基于大型语言模型的具身终身学习智能体,设计用于在《我的世界》这类开放世界中自主探索、学习技能和发现新事物。 大型语言模型 (LLM): 如 GPT-4,VOYAGER利用其强大的世界知识、推理能力和代码生成能力来规划行为和生成可执行代码。 终身学习 (Lifelong Learning): 指智能体能够持续地从经验中学习、积累知识和技能,并且不会遗忘之前学到的东西。 自动课程表 (Automatic Curriculum): VOYAGER的一个核心组件,由GPT-4生成,根据智能体的探索进度和状态,自动提出新的、逐步进阶的任务或挑战,以最大化探索。 技能库 (Skill Library): 另一个核心组件,一个不断增长的可执行代码集合,存储着VOYAGER成功学会的各种复杂行为或技能。技能是可复用和组合的。 迭代式提示机制 (Iterative Prompting Mechanism): VOYAGER用来生成和改进技能(代码)的学习机制。通过与GPT-4互动,根据执行反馈(环境反馈、执行错误、自我验证)反复修正生成的代码,直到任务成功。 环境反馈 (Environment Feedback): 在执行代码过程中,从游戏环境获得的实时信息,例如“缺少某个物品”等,用于指导代码改进。 执行错误 (Execution Errors): 代码本身语法或逻辑错误导致程序无法正常运行的报错信息,用于代码调试. 自我验证 (Self-verification): 由另一个GPT-4智能体充当“裁判”,评估任务是否成功完成。如果失败,还会提供改进建议,是迭代学习中最重要的反馈类型之一。 《我的世界》科技树 (Minecraft Tech Tree): 游戏中的一个核心概念,代表了玩家从基础资源逐步解锁更高级工具、物品和能力的 progression 路径(例如从木质工具到石质、铁质,最终到钻石工具) Mineflayer API: VOYAGER 用来控制《我的世界》游戏角色的JavaScript编程接口,它提供了一系列高层次的控制原语,使得AI可以通过代码直接与游戏环境互动,而不是处理像素画面。 了解更多 (Where to Learn More): 论文名称: VOYAGER: An Open-Ended Embodied Agent with Large Language Models" 原文地址:https://arxiv.org/pdf/2305.16291 VOYAGER 项目网站: voyager.minedojo.org MineDojo项目: minedojo.org
一个大脑,玩转万物:谷歌 AI “通才”Gato论文解读大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 本期节目,我们一起聊聊 Google DeepMind 团队在论文《A Generalist Agent 》中介绍的通用智能体 Gato,它采取了“序列一切”的核心思想,将不同模态的数据(文本、图像、传感器数据)和动作指令全部转化成统一的序列,再用一个强大的 Transformer 网络来处理。它在海量多样化数据上学习,展现出了令人惊叹的通用能力。但这仅仅是通用智能体的开端,未来还有哪些可能性和挑战?它的设计又如何与最新的脑科学发现产生共鸣? 本期播客中你将听到 (Outline): 通用智能体 (Generalist Agent) 是什么?为什么 Gato 是一个重要的里程碑? Gato 的核心魔法:如何把图像、文字、机器人控制信号等各种数据都变成统一的“序列”? Gato 如何像语言模型一样,通过预测序列中的下一个“标记”来理解和行动? Gato 的“学习食谱”:训练它所需的庞大而多样化的数据集有哪些?(你会听到各种游戏环境、机器人任务和互联网数据的名字) Gato 的本领大展示:它能在 Atari 游戏中达到专家水平吗?它能进行基础对话和图片描述吗?它真的能用真实机械臂堆积木吗? 为什么模型规模(参数量、数据量、计算量)对 Gato 的表现至关重要?Scaling Laws 的启示。 Gato 的小样本学习能力:面对新任务,它能快速适应吗? Gato 的设计灵感来自哪里?它与 GPT-3、Decision Transformer 等研究有何关联? 一个有趣的角度:AI 的“通用大脑”和脑科学的联系。 通用智能体时代悄然到来?我们应该关注哪些潜在风险和伦理挑战(数据偏见、物理世界安全等)?以及未来的发展方向。 关键概念速查 (Key Concepts Explained): 通用智能体 (Generalist Agent): 指的是能够处理广泛的任务和环境的单一智能体。Gato 就是一个例子。 多模态 (Multi-modal): 能够处理多种类型的数据输入,比如文本、图像、机器人传感器数据(本体感受、关节扭矩等)。 多任务 (Multi-task): 能够执行多种不同的任务,从玩游戏到聊天、控制机器人等。 多具身 (Multi-embodiment): 能够在不同的“身体”或环境中运行,包括模拟环境和现实世界的机器人。 行为克隆 (Behavior Cloning): 一种学习范式,通过模仿专家的行为来学习策略。Gato 的训练数据包含了大量专家在各种任务中的经验记录。 Tokenization / 序列化 (Serialization): 将不同格式的数据(如文本、图像像素、传感器数值)转换成离散的“标记”或 token,并将它们排列成一个统一的序列。这是 Gato 处理多模态数据的关键。 Transformer: 一种强大的神经网络架构,尤其擅长处理序列数据。Gato 使用了一个解码器专用的 Transformer 来预测序列中的下一个 token,这可以是文本、图像的一部分,也可以是动作指令。 Prompt Conditioning: 利用序列开头或之前部分的 tokens 作为“提示”或上下文,来引导模型在特定任务上生成期望的输出或行为。比如给 Gato 看一个成功的任务演示序列,它就能理解并尝试完成类似任务。 Scaling Laws: 指在训练大型机器学习模型时,模型的性能通常会随着模型规模(参数数量)、训练数据量和计算资源的增加而呈现可预测的提升规律。 小样本学习 (Few-shot Learning) / 微调 (Fine-tuning): 指模型在只看到很少量新任务的示例(比如几个演示视频或少量数据)后,就能快速适应并执行新任务的能力。Gato 具有一定的此能力。 了解更多 (Where to Learn More): 论文名称:A Generalist Agent 原文地址:https://arxiv.org/pdf/2205.06175
AI 大模型的“生长法则”:语言模型性能的规模定律大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 您是否好奇,为什么把语言模型做得越来越大,它的性能就会神奇地不断提升?这背后是否存在某种规律?本期节目,我们将带您探讨一篇开创性的论文——《神经语言模型缩放定律》(Scaling Laws for Neural Language Models)。这篇论文惊人地揭示了神经语言模型的性能(具体来说是交叉熵损失)如何精确地遵循幂律关系,随着其规模(包括模型参数数量 、数据集大小 和训练计算量 )的变化而变化。 本期播客中你将听到 (Outline) AI语言模型的现状与挑战: 为什么我们需要理解模型的“生长”规律? 什么是“缩放定律”: 模型性能如何与模型参数 、数据 和计算 挂钩? 令人惊讶的发现: 为什么架构细节没那么重要,而规模才是关键? 平滑的幂律关系: 这些关系有多精确?跨越了多少数量级? 过拟合的普遍性与数据需求: 如何理解模型大小与数据量之间的平衡?模型变大 8 倍,数据只需要大约 5 倍? 训练过程的可预测性: 训练曲线是否也遵循规律? 泛化能力的秘密: 在训练集上表现好,泛化能力就强? 大型模型的“魔法”: 为什么大模型更样本高效? 最高效的训练策略: 为什么说将小模型训练到收敛是低效的?最优解是训练大模型并“早停”? 计算资源的最优分配: 当计算预算增加时,应该主要增加模型大小,而不是训练步数? “大模型可能比大数据更重要”? 临界批大小的作用: 批大小如何影响训练效率? 语言模型的“物理学”类比: 为什么这些发现如此重要? 关键概念速查 (Key Concepts Explained) 神经语言模型 (Neural Language Model): 利用神经网络对语言进行建模,预测序列中下一个词或字符的模型。 缩放定律 (Scaling Laws): 描述语言模型性能(通常是损失)与其规模因素(如模型大小、数据量、计算量)之间存在的普适性、可预测的数学关系,通常表现为幂律形式。 交叉熵损失 (Cross-entropy Loss): 衡量语言模型预测下一个词的能力的指标,损失越低,性能越好。这篇论文的主要性能度量就是交叉熵损失。 模型参数数量 (N): 神经网络模型中可学习参数的总数。在这篇论文中,N 特指不包含词汇表和位置嵌入的参数数量,因为它表现出更“干净”的缩放关系。 数据集大小 (D): 用于训练模型的文本数据的总量,通常以 tokens(最小的处理单元)为单位衡量。 计算资源 (C / Compute): 用于模型训练的总计算量,估算方式为 6 * N * Batch Size * Steps,数值常以 PF-days(PetaFLOP-days)为单位。Cmin 是达到特定损失所需的最小计算量。 幂律关系 (Power-law relationship): 一种数学关系,其中一个量与另一个量的某个固定的指数次方成正比,例如 L ∝ 1/X^α。 过拟合 (Overfitting): 模型在训练数据上表现很好,但在未见的测试数据上表现下降的现象。论文研究了当模型规模和数据集大小不匹配时,过拟合如何发生以及如何避免。 样本效率 (Sample Efficiency): 模型使用的数据量或训练步数来达到某个性能水平的效率。大型模型被发现比小型模型更样本高效。 临界批大小 (Critical Batch Size / Bcrit): 在模型训练中,一个批处理大小的阈值。在这个阈值以下,增加批大小对计算效率影响很小;超过这个阈值,效率会降低。它是时间效率和计算效率之间的权衡点。 最优计算分配 (Optimal Compute Allocation): 在固定总计算量 Cmin 下,如何分配资源(在模型大小、批大小和训练步数之间),以达到最低损失。 迁移能力/泛化 (Transfer/Generalization): 模型在训练数据分布之外的其他数据分布上保持良好性能的能力。论文发现这种能力与模型在训练验证集上的表现密切相关。 了解更多 (Where to Learn More): 论文名称:Scaling Laws for Neural Language Models 原文地址:https://arxiv.org/pdf/2001.08361 延展阅读:https://en.wikipedia.org/wiki/Scaling_laws_(deep_learning)
让 AI “看”得更清楚:VLMs 设计踩坑与填坑指南大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 来自斯坦福大学和丰田研究院的《Prismatic VLMs》论文,就像一份 VLM 设计的“体检报告”和“优化指南”.。 本期播客,我们将带你深入这篇论文的核心,看看研究者们如何构建标准化的评估体系,系统地探索了 VLM 设计中的关键环节,比如图像处理方式、视觉模型选择、语言模型类型以及训练策略。他们不仅发现了一些令人惊讶的优化“秘密”(比如简单的单阶段训练竟比多阶段更优!),还构建了一系列名为 PRISMs 的新模型家族,这些模型在相同规模下全面超越了当前的先进开源 VLM。 本期播客中你将听到 (Outline) 什么是视觉语言模型(VLM)?它们为何如此重要和热门? 构建高性能 VLM 面临哪些挑战,尤其是在评估和设计上? 论文如何构建一个全面、客观的评估工具箱,涵盖哪些任务类型? 深入探索 VLM 的设计空间: * 训练流程的效率与效果: 多阶段训练真的必要吗?单阶段训练有何优势? 微调视觉骨干会带来什么影响? * 图像处理与视觉模型选择: 哪种预训练视觉模型(CLIP, SigLIP, DINOv2, ViT)更适合 VLM?不同图像处理方式(裁剪、填充、朴素缩放)的效果对比。融合不同视觉模型的特征能否提升性能? * 语言模型的角色: 基础语言模型(如 Llama-2)与指令微调模型(如 Vicuña v1.5)在 VLM 中的表现有何差异?联合训练纯文本数据的重要性体现在哪里? * 训练时长与数据多样性: 延长训练时间、增加数据量和数据多样性对 VLM 性能的影响。 论文如何将这些发现整合成构建 PRISM 模型家族的核心原则? PRISM 模型相比现有开源模型(如 LLaVa v1.5)在各项任务上表现如何? 当前研究的局限性以及 VLM 未来可能的研究方向。 开放研究的重要性以及 VLM 固有的风险与潜在的益处(如安全问题、偏见、幻觉)。 关键概念速查 (Key Concepts Explained) VLM (Visually-Conditioned Language Models): 视觉条件语言模型的简称。这类模型能够接收图像和文本作为输入,并生成自然语言的响应。 视觉骨干 (Visual Backbone / Visual Representation): VLM 中负责处理输入图像并提取关键视觉特征(通常是一系列图像块的特征)的预训练模型部分,例如 CLIP、SigLIP、DINOv2 或基于 ImageNet 预训练的 ViT。 视觉-语言投影器 (Vision-Language Projector): VLM 架构中的一个中间层,负责将从视觉骨干中提取的视觉特征转换或“投影”到语言模型能够理解的输入空间。 语言模型 (Language Model - LM): VLM 中负责处理文本输入(包括来自投影器的视觉特征,被视为特殊文本标记)并生成自然语言响应的部分,例如 Llama-2、Vicuña。 单阶段训练 (Single-Stage Training): 一种 VLM 训练流程,直接同时训练视觉-语言投影器和语言模型,跳过单独的视觉-语言特征对齐阶段。 多阶段训练 (Multi-Stage Training): 一种常见的 VLM 训练流程,通常包含至少两个阶段:第一阶段先训练投影器以对齐视觉和语言特征,第二阶段再联合训练投影器和语言模型。 基础语言模型 (Base LM): 未经过指令微调(instruct-tuning)的语言模型,通常训练目标是预测序列中的下一个词。 指令微调语言模型 (Instruct-Tuned LM): 经过指令或对话数据进一步微调的基础语言模型,使其更能理解和遵循人类指令,常用于构建聊天助手。 评估工具箱 (Evaluation Suite): 论文作者为了客观衡量 VLM 能力而汇编的一系列标准化评估基准,包括视觉问答、目标定位和探测特定能力(如幻觉、空间推理)的挑战任务。 幻觉 (Hallucination): VLM 在生成响应时,“看到”或声称图中存在实际不存在的物体、属性或细节的现象。 PRISM 模型家族: 论文作者基于其系统性实验发现的最佳设计组合训练出的一系列新型高性能开源 VLM 模型。 了解更多 (Where to Learn More) 原文名称: Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models 原文地址:https://arxiv.org/pdf/2402.07865 开源代码库 (训练): TRI-ML/prismatic-vlms (github.com) 开源代码库 (评估): TRI-ML/vlm-evaluation (github.com)
告别繁琐 RLHF,DPO 直接让大模型听懂“人话”大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」 本期的内容探讨的是一篇关于直接偏好优化 (Direct Preference Optimization, DPO) 的论文,它提出了一种更简单、更稳定的方法来调整大型语言模型 (LLMs),使其符合人类的偏好。 本期播客中你将听到 (Outline): 大型语言模型能力惊人,但如何精确控制它的行为,让它符合我们的偏好,是一个重要挑战。 传统的 RLHF (Reinforcement Learning from Human Feedback) 方法是如何工作的?它为什么复杂且不够稳定? (需要先训练一个奖励模型,再用强化学习去优化语言模型)。 Direct Preference Optimization (DPO) 登场!它有什么创新之处? (它直接优化语言模型,跳过了奖励模型训练和复杂的强化学习步骤)。 DPO 为什么能做到?它的核心在于发现了奖励模型和最优策略之间存在的直接数学关系。 DPO 如何实现?只需要一个简单的分类损失函数,就可以直接优化语言模型策略,拟合一个隐式的奖励模型。 DPO 相对于 RLHF 有哪些显著优势?更简单、稳定、计算量小。 实验证明:DPO 在控制文本情感、生成摘要和对话质量方面,效果媲美甚至超越了传统的 PPO-based RLHF 方法。甚至在某些任务上表现更棒。 探讨 DPO 的意义、潜在局限性和未来研究方向。 关键概念速查 (Key Concepts Explained): 大型语言模型 (LLMs): 经过海量无监督文本数据训练的基础模型,具备广泛知识和能力。 人类偏好数据 (Human Preference Data): 人类对模型生成文本质量进行比较和排序的数据集。 AI 对齐 (Alignment): 确保 AI 系统的行为与人类的价值观、意图和偏好相符。 强化学习从人类反馈中学习 (RLHF): 当前常用的 AI 对齐技术,通过训练奖励模型和应用强化学习来优化语言模型。 奖励模型 (Reward Model): 一个预测模型生成文本符合人类偏好程度的评分模型。 策略 (Policy): 在 LLM 中指给定输入后,模型生成下一个词的概率分布,决定了模型的生成行为。 近端策略优化 (PPO - Proximal Policy Optimization): 一种常用的强化学习算法,在 RLHF 的第二阶段被广泛使用。 直接偏好优化 (DPO - Direct Preference Optimization): 本论文提出的新算法,通过一个简单的分类损失直接优化语言模型策略以对齐人类偏好。 Bradley-Terry 模型 / Plackett-Luce 模型: 描述人类偏好行为的理论模型,假设偏好概率与潜在的“奖励”或“价值”有关。 KL 散度约束 (KL-divergence Constraint): 在 RLHF 目标函数中加入的惩罚项,防止微调后的模型与原始模型差异过大。 隐式奖励模型 (Implicit Reward Model): DPO 优化过程中,虽然没有显式训练奖励模型,但优化的策略实际上对应了一个潜在的奖励函数。 封闭形式 (Closed Form): 指通过解析方法直接得到的数学解,无需迭代计算。 监督微调 (SFT - Supervised Fine-Tuning): 在 RLHF 流程初期,使用高质量示例对预训练模型进行的微调步骤。 了解更多 (Where to Learn More): 论文名称:Direct Preference Optimization:Your Language Model is Secretly a Reward Model 原文链接:https://arxiv.org/pdf/2305.18290