🤖《Attention Is All You Need》播客笔记：Transformer 如何重塑 AI 未来

2017 年 NIPS 会议上，Google Brain 的《Attention Is All You Need》用纯注意力机制颠覆 NLP 界，为 GPT、BERT 等大模型奠基。论文提出的 Transformer 架构抛弃传统 RNN 和 CNN，以全新思路解决序列建模难题。

传统 RNN 如 LSTM 按时间步逐个处理序列，长文本训练效率低下。而 Transformer 的自注意力机制让每个 token 直接关联全局信息，计算复杂度为 O (n²・d)。当序列长度 n 小于表示维度 d（如 512）时，运算速度远超 RNN，彻底告别 “排队计算” 模式。

CNN 需堆叠多层（如 ConvS2S 需 O (log n) 层）才能捕获长距离依赖，而 Transformer 通过注意力权重矩阵，让每个位置直接 “看到” 句子首尾，如同读小说时瞬间关联首尾伏笔，精准处理翻译、摘要等长文本任务。

公式Attention(Q,K,V)=softmax(QKᵀ/√dₖ)V揭示其原理：查询向量 Q 与键向量 K 算点积，除以√dₖ防止梯度消失，再通过 softmax 转权重后加权求和值向量 V。如翻译时，解码器的 Q 会 “询问” 编码器的 K/V，定位最相关输入信息。

将 Q、K、V 拆成 8 个头并行计算注意力后拼接，如同 8 个翻译专家各司其职（有的专注语法，有的抓关键词），最终汇总结果，比单头注意力更全面。

因 Transformer 不依赖时序计算，论文用正弦余弦函数注入绝对位置信息（如PE(pos,2i)=sin(pos/10000^(2i/d_model))），让模型明确 token 在句中的位置，避免语义混乱。

英德翻译：Transformer 大模型以 28.4 BLEU 分超越所有集成模型，8 块 P100 GPU 仅用 3.5 天完成训练，计算量比 ConvS2S 节省超 90%。

Transformer 为 AI 装上 “全局视野”，从机器翻译到 ChatGPT，从 Diffusion 模型到多模态大模型，这场 “Attention 革命” 仍在持续。而一切辉煌，都始于这篇仅用注意力机制便重塑学界的里程碑论文。