大家好,欢迎收听播客「 听懂 100 篇 AI 经典论文 」。
你是否惊叹于现在的机器翻译有多流畅自然?1或者好奇AlphaGo、Siri等AI背后强大的语言理解能力是如何实现的?这一切的飞跃,都与2017年的一篇划时代论文紧密相关——《Attention Is All You Need》。
这篇由 Google AI 发表的论文,提出了一种全新的神经网络架构:Transformer。它的核心观点极其大胆:完全抛弃了过去在处理文本、语音等序列数据时,几乎必备的循环神经网络 (RNN) 和卷积神经网络 (CNN)。
本期播客中你将听到 (Outline):
为何放弃 RNN/CNN?
我们曾依赖RNN像流水线一样顺序处理信息,但这让它难以并行,处理长句子时容易“忘事儿”(长距离依赖问题)。CNN虽然有并行能力,但关联相隔较远的词需要堆叠多层,效率不高。
Transformer 的核心魔法:注意力
Transformer 的强大,完全来自于它对“注意力机制”的极致运用。想象一下,当模型处理一个词时,不再受限于旁边的词,而是可以直接“看到”句子里的所有其他词,并根据重要性分配“注意力”权重。这就是它的核心——自注意力 (Self-Attention)。
不止一种注意力:多头注意力
为了更全面地捕捉信息,Transformer 同时使用多个不同的“注意力头”。就像从不同的角度去观察和理解句子,有的可能关注语法结构,有的关注词语搭配,使得模型的能力大大增强。
位置信息怎么办?
既然没有了顺序处理的 RNN,Transformer 如何知道词的顺序呢?论文巧妙地引入了位置编码 (Positional Encoding),将每个词的位置信息“注入”到它的表示向量中,让模型知道词的相对或绝对位置。论文实验表明,固定的正弦波编码和学习到的位置编码效果几乎一样好。
惊人的成果
实验表明,Transformer 在机器翻译等任务上取得了超越当时最好模型 (state-of-the-art) 的成绩。在 WMT 2014 英德翻译任务上,Transformer (big) 模型达到了 28.4 BLEU,比现有最好成绩(包括集成模型)提升了超过 2.0 BLEU。在英法翻译任务上,单模型达到了新的最高分 41.8 BLEU。更重要的是,因为它能大幅并行计算,训练速度比以前快得多。论文还在英语成分句法分析等其他任务上验证了其泛化能力。
影响深
《Attention Is All You Need》这篇论文不仅仅是技术上的突破,它开启了序列模型的新篇章。后续的许多大型预训练模型(如 BERT、GPT 系列等,这里可以口头提及,并说明这些是在Transformer基础上发展而来的)都是在 Transformer 的架构基础上发展起来的,深刻影响了当前的AI发展。
关键概念速查 (Key Concepts Explained):
Transformer: 本论文提出的全新神经网络架构,完全基于注意力机制。
注意力机制 (Attention Mechanism): 一种允许模型在处理序列元素时,直接“关注”序列中其他所有元素(无论远近)并分配权重的机制。
自注意力 (Self-Attention / Intra-attention): 注意力的一种特殊形式,用于计算序列中每个元素与其他所有元素(包括自身)之间的关系,从而更好地表示该元素。
多头注意力 (Multi-Head Attention): 将自注意力过程并行进行多次,每次使用不同的参数投影,然后将结果拼接。这使得模型能够同时从不同的“角度”或“表示子空间”捕捉序列信息。
缩放点积注意力 (Scaled Dot-Product Attention): Transformer 中使用的具体注意力计算方法,通过计算查询和键的点积,进行缩放后得到注意力权重。
位置编码 (Positional Encoding): 一种添加到输入词向量中的信息,用来表示词在序列中的位置或顺序,因为 Transformer 结构本身不具备处理顺序的能力。论文使用了基于正弦和余弦函数的固定编码。
编码器-解码器结构 (Encoder-Decoder Structure): 一种处理序列到序列任务的经典框架。编码器将输入序列转换为一种内部表示,解码器根据这种表示生成输出序列。Transformer 采用了这种结构。
残差连接 (Residual Connection): 在网络层中,将层的输入直接加到层的输出上。有助于训练更深的网络结构,防止梯度消失。
层归一化 (Layer Normalization): 一种规范化技术,应用于每一层的输入,有助于稳定训练。
位置级前馈网络 (Position-wise Feed-Forward Networks): 在 Transformer 的每一层中,除了注意力机制外,还有一个应用于序列中每个位置的独立且相同的前馈神经网络。
序列转换模型 (Sequence Transduction Models): 指的是将一个序列转换为另一个序列的模型,如机器翻译、文本摘要等。
循环神经网络 (RNN): 传统的序列模型,按顺序处理输入,难以并行化和捕捉长距离依赖。
卷积神经网络 (CNN): 另一种神经网络类型,也可用于序列处理,通过卷积核捕捉局部特征。
BLEU 分数 (BLEU Score): 机器翻译领域常用的评估指标,衡量机器翻译结果与人工参考译文的相似度,分数越高通常表示翻译质量越好。
并行计算 (Parallelization): 同时执行多个计算任务的能力。Transformer 相比 RNN 更易于并行计算,显著提高了训练效率。
长距离依赖 (Long-Range Dependencies): 指序列中相隔较远的元素之间的关系。学习这种关系是序列处理中的一大挑战,Transformer 的自注意力机制有效解决了这个问题。
了解更多 (Where to Learn More):
论文名称:Attention Is All You Need
原文地址:arxiv.org
Transformer (deep learning architecture)维基百科:en.wikipedia.org(deep_learning_architecture)