Language Models are Few-Shot Learners

检索增强生成RAG论文导读

10分钟 ·3个月前

2

·

0

这篇文章（即GPT-3论文）的核心内容是：通过将语言模型的规模大幅提升至1750亿参数，研究者发现模型在任务无关的少样本（few-shot）学习方面取得了突破性进展。具体来说：

核心发现：模型规模（参数量和数据量）的扩展极大地提高了语言模型在少样本、单样本甚至零样本设置下的性能。GPT-3仅通过文本交互接收任务描述和少量示例（即“上下文学习”），无需任何梯度更新或微调，就能在许多NLP任务上达到与先前需要大量任务特定数据微调的方法相竞争甚至更优的水平。

关键方法：论文系统评估了零样本（zero-shot）、单样本（one-shot）和少样本（few-shot） 学习设置。其中，少样本学习仅需在模型上下文窗口中提供少量任务示例（通常10-100个），模型即可通过前向预测适应新任务。

主要结果：GPT-3在广泛的任务上表现出色，包括：语言建模与补全（如LAMBADA、故事补全）。
闭卷问答（如TriviaQA），其少样本结果甚至达到了新的SOTA。
翻译（尤其在翻译成英语的任务上）。
常识推理（如Winograd、PIQA）。
一些需要即时推理的任务（如单词解读、算术运算、使用新词造句）。
生成能力：生成的新闻文章难以被人类评估者与真人撰写的文章区分。

同时指出了局限性与问题：在某些任务上（如自然语言推理ANLI、部分阅读理解数据集RACE/QuAC）表现仍不理想。
讨论了在大型网络语料库上训练可能导致的数据污染（训练集与测试集重叠）问题，并开发了工具进行量化分析。
模型在涉及两个句子比较的任务（如词语消歧WiC）上表现较弱。

模型与训练：GPT-3是基于Transformer架构的自回归语言模型，在包含Common Crawl、维基百科、书籍等多种来源的大规模高质量过滤数据集上进行训练。

意义与影响：这项工作表明，大规模预训练语言模型具备通过上下文学习快速适应新任务的强大元学习能力，向构建更通用、更灵活、更接近人类学习方式的NLP系统迈出了重要一步。论文也对其可能带来的社会影响进行了初步讨论。

总之，该研究证明了扩展模型规模是提升语言模型少样本学习性能的有效途径，为未来人工智能系统的开发提供了重要方向。

根据提供的文章《Language Models are Few-Shot Learners》（即GPT-3论文），以下是各章节内容的详细介绍：

概要 (Abstract)

核心发现：研究表明，大幅扩大语言模型的规模能显著提升其在任务无关、少样本学习上的性能。在某些任务上，其少样本学习能力甚至能与需要大量任务特定数据微调的先前最先进模型相竞争。

模型介绍：论文训练了GPT-3，这是一个拥有1750亿参数的自回归语言模型，参数量是之前任何非稀疏语言模型的10倍以上。

评估方式：GPT-3在所有任务上均不进行任何梯度更新或微调。任务描述和少样本示例纯粹通过文本交互（即“上下文学习”）指定给模型。

性能表现：GPT-3在翻译、问答、完形填空等许多NLP数据集上表现强劲，也能完成需要即时推理（如解构单词、使用新词、三位数算术）的任务。同时，它也识别出一些表现不佳的数据集和方法论问题。

社会影响：GPT-3能生成人类评估者难以区分的新闻文章样本，论文讨论了这一发现及GPT-3更广泛的社会影响。

1. 引言 (Introduction)

背景：回顾了NLP从预训练词向量到预训练语言模型直接微调的发展历程。尽管架构是任务无关的，但微调仍需要数千到数十万的任务特定标注数据，这限制了模型的适用性、可能导致过拟合，且与人类仅需少量示例就能学习的能力不符。

核心思路：提出通过元学习（Meta-learning） 来解决此问题，即在训练时让模型掌握广泛的技能和模式识别能力，在推理时快速适应新任务。这通过 “上下文学习（In-context Learning）” 实现：将自然语言指令和/或少量任务示例作为条件输入给预训练模型，模型通过预测后续文本来完成任务。

研究假设与目标：鉴于模型容量增长持续带来性能提升，论文假设上下文学习能力也可能随模型规模显著增强。为此，训练了1750亿参数的GPT-3，并在超过两个 dozen 的NLP数据集上，系统评估其在零样本（Zero-Shot）、单样本（One-Shot）和少样本（Few-Shot） 设置下的性能。

初步结果：结果显示，GPT-3在零样本和单样本设置下取得了有希望的结果，在少样本设置下有时能媲美甚至超越最先进的微调模型。模型也展示出在即时推理和适应任务上的能力，以及生成高质量新闻文章的能力。同时，也指出了其存在弱点的任务领域。

2. 方法 (Approach)

评估设置定义：明确了四种利用任务特定数据程度不同的评估范式：微调（Fine-Tuning, FT）：传统方法，在任务特定数据集上更新预训练模型的权重。性能强，但需要大量标注数据。
少样本（Few-Shot, FS）：本文焦点。在推理时，给模型提供最多能放入上下文窗口（通常10-100个）的任务示例作为条件，不允许权重更新。减少了数据需求，但此前性能远差于微调。
单样本（One-Shot, 1S）：仅允许一个任务示例外加自然语言描述。
零样本（Zero-Shot, 0S）：不允许任何示例，仅提供自然语言任务指令。最方便，也最具挑战性。

模型与架构：使用与GPT-2相同的模型和架构（包括初始化、预归一化、可逆分词），但transformer层中使用了交替的密集和局部带状稀疏注意力模式。为了研究性能与规模的关系，训练了8种不同尺寸的模型（从1.25亿到1750亿参数）。

训练数据集：数据集混合了经过质量过滤和去重处理的Common Crawl，以及WebText2、Books1、Books2和Wikipedia等高质量语料。采样时更偏向高质量数据集，而非严格按大小比例。

训练过程：根据模型大小调整批次大小和学习率。使用模型并行技术来训练大模型。

评估细节：对于少样本学习，从训练集中随机抽取K个示例作为上下文条件。对于多项选择任务，比较模型对不同选项的生成似然。对于自由形式生成任务，使用束搜索。最终结果主要在测试集或开发集上报告。

3. 结果 (Results)

本章系统评估了GPT-3在广泛任务上的表现，并按任务类别分组呈现：

3.1 语言建模、完形填空与补全任务：在PTB上实现了新的零样本困惑度SOTA（20.50）。在LAMBADA（测试长程依赖）上，通过少样本设置（填空格式）达到86.4%的准确率，提升显著。在HellaSwag和StoryCloze上也取得了有竞争力的结果。

3.2 闭卷问答：在TriviaQA、WebQuestions、Natural Questions上评估模型仅凭内部知识回答问题的能力。在TriviaQA上，少样本结果（71.2%）达到了闭卷SOTA；在WebQs上接近微调模型性能。性能随模型规模平滑增长。

3.3 翻译：评估了英法、英德、英罗等语言对的翻译能力。尽管训练数据以英文为主，但少样本GPT-3在翻译成英语的任务上表现优异，甚至超过了一些无监督NMT工作的结果，体现了其作为英语语言模型的优势。翻译出英语则稍弱。

3.4 Winograd式任务：在需要代词消歧的Winograd和更难的Winogrande数据集上测试。GPT-3在Winograd上接近SOTA，在Winogrande上少样本达到77.7%，显示出上下文学习的增益。

3.5 常识推理：在PIQA（物理常识）、ARC（科学问答）、OpenBookQA上评估。GPT-3在PIQA上实现了SOTA，在ARC Easy上表现尚可，但在ARC Challenge和OpenBookQA上与SOTA仍有较大差距。

3.6 阅读理解：在CoQA、DROP、QuAC、SQuADv2、RACE等数据集上评估。表现差异较大，在对话式数据集CoQA上接近人类水平，但在需要复杂推理或对话结构理解的QuAC和RACE上表现较弱。

3.7 SuperGLUE：在标准化基准套件上评估。GPT-3少样本设置下的总体表现优于微调的BERT-Large。在COPA和ReCoRD任务上接近SOTA，但在WiC（词义消歧）等涉及句子比较的任务上表现接近随机。

3.8 自然语言推理：在ANLI和RTE任务上评估。NLI对GPT-3来说仍然非常困难，只有最大的175B模型在ANLI第三轮上显示出明显高于随机猜测的性能。

3.9 合成与定性任务：设计任务来探测GPT-3的即时推理和适应能力。算术：在少样本设置下，GPT-3能较好完成多位数加减法，但随位数增加性能下降。乘法也有一定能力。小模型则基本无法完成。
单词重组与操作：在字符重组、插入等任务上，GPT-3在少样本下表现出学习能力，但零样本下几乎无法完成。
SAT类比：少样本下达到65.2%的准确率，超过当时美国大学申请者的平均分（57%）。
新闻文章生成：通过提供少量新闻示例作为上下文，GPT-3能生成高质量新闻文章。人类评估者难以区分其生成的文章与真人撰写的文章。

4. 数据污染 (Data Contamination)

问题：在Common Crawl等大型网络语料上训练高容量模型时，测试集内容可能无意中被包含在训练数据中（数据污染），从而虚高评估结果。

方法：开发了系统化工具来测量数据污染并量化其扭曲效应。

结论：虽然发现大多数数据集上数据污染对GPT-3性能影响极小，但仍识别出少数可能受影响的数据集（如LAMBADA、PIQA部分内容）。对于这些数据集，论文选择不报告结果或使用星号（*）标注，并在分析中保持谨慎。

5. 局限性 (Limitations)

指出了GPT-3和本文方法的一系列弱点：在文本补全任务中，即使有上下文示例，有时也会出现重复或语义连贯性下降。
尽管总体性能强劲，但样本效率仍远低于人类。
在NLI、阅读理解等一些任务上，少样本学习仍然吃力。
存在方法论问题：无法确定“上下文学习”是真正从零学习新任务，还是仅仅识别并重复训练中见过的任务模式；预训练目标可能不是样本效率最高的。
模型可解释性差，难以理解其预测依据。
训练成本极高，可能加剧AI研究资源集中化。
在涉及两个句子比较或关系判断的任务（如WiC、ANLI）上表现不佳。

6. 社会影响 (Broader Impacts)

潜在危害：讨论了GPT-3可能带来的负面影响，包括：偏见与公平性：模型可能从训练数据中学习并放大社会偏见、生成带有偏见或诋毁性的内容。
滥用风险：可能被用于生成虚假信息、垃圾邮件、欺诈性内容或恶意软件。
就业影响：强大的语言生成能力可能影响写作、新闻等相关职业。
其他：长期来看，与能耗、技术使用不平等、AI竞赛安全等问题相关。

应对与缓解：承认完全消除风险是困难的，但强调需要持续研究（如偏见缓解、可解释性）、谨慎部署（如访问控制、内容过滤）和政策讨论。

7. 相关工作 (Related Work)

简要回顾了与本文相关的领域，包括：语言模型预训练、少样本与元学习、NLP中的多任务学习、基于检索的语言模型、语言模型中的知识、模型规模对性能的影响、语言模型的社会影响等。

8. 结论 (Conclusion)

总结：训练了1750亿参数的GPT-3，并证明扩大语言模型规模能极大改善任务无关的少样本性能，在多种任务上达到与先前的微调SOTA相竞争的水平。

意义：研究结果表明，至少在某些领域，扩大规模可能是实现通用语言理解系统的一条可行路径。上下文学习提供了一种灵活、适应性强且与人类交流方式更接近的交互范式。

未来方向：指出了需要进一步研究的问题，包括：理解上下文学习的工作原理、提高样本效率、解决模型在特定任务上的弱点、以及更深入地应对伦理和社会影响挑战。

在小宇宙打开