告别“大而全”，拥抱“小而精”：Mixtral 8x7B 的高效秘诀

大家好，欢迎收听播客「听懂 100 篇 AI 经典论文」

本期节目，我们将探讨的论文是关于Mixtral 8x7B 模型的！这个由 Mistral AI 推出的开源模型，正在以前所未有的方式挑战现有大型语言模型的格局。

本期播客中你将听到 (Outline):

Mixtral 8x7B 为什么特别？ Mixtral 采用了创新的稀疏混合专家 (Sparse Mixture of Experts - SMoE) 架构1...。想象一个拥有 8 位顶级专家的团队，但在处理每项任务（每个词元）时，只会智能地派遣其中两位出马。这种设计让它在拥有 470 亿总参数的同时1，推理时实际激活的参数只有 130 亿，效率大大提升！
- 性能炸裂！ Mixtral 在多项标准基准测试中超越或匹敌了强大的 Llama 2 70B 和 GPT-3.5。尤其在数学、代码生成和多语言任务（如法语、德语、西班牙语、意大利语）上，它的表现显著优于 Llama 2 70B。
- 指令微调版更强大！ 论文还推出了经过优化的 Mixtral 8x7B – Instruct 版本，它在人类评估基准测试中表现惊人，甚至超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 等知名模型。而且，它的偏见更少，情感倾向更平衡。
- 长文本能力突出： Mixtral 支持高达 32k 词元的上下文窗口，并在长文本检索任务中展现了出色的能力。
- 重磅开源： 最令人兴奋的是，Mixtral 8x7B 和 Mixtral 8x7B – Instruct 都以友好的 Apache 2.0 许可证发布，这意味着可以免费用于学术和商业用途，极大地降低了使用门槛。
- 背后的秘密： 我们还将简要探讨论文中关于专家路由器的有趣分析，比如它似乎更多地根据语法结构而非主题来选择专家。

更多细节：
- 稀疏混合专家 (SMoE) 架构是如何工作的。
- Mixtral 8x7B 的实际性能如何，特别是与 Llama 2 70B 和 GPT-3.5 的对比。
- 指令微调版 Mixtral 8x7B – Instruct 的亮点和优势。
- 为什么 Mixtral 在效率和可访问性方面具有重要意义。
- 模型内部关于专家选择的一些初步发现。

专家 (Experts): 在 Mixtral 的 SMoE 架构中，专家是模型每一层中的标准前馈网络块。Mixtral 模型共有 8 个专家。

路由网络 (Router network): 这是 SMoE 架构中的一个组件，负责为每个输入标记在每一层选择要使用的专家。它根据输入计算门控网络的输出权重来选择专家4. Mixtral 的路由网络选择排名前 2 的专家进行处理

活跃参数 (Active parameters): 这是指模型在处理单个标记时实际使用的参数数量1...。Mixtral 8x7B 在推理过程中只使用 13B 的活跃参数1...。

稀疏参数总数 (Sparse parameter count): 这是模型的总参数数量。对于 Mixtral 8x7B，这个总数是 47B 参数。尽管总参数量大，但由于只使用部分专家，活跃参数数量较少。

上下文长度 (Context size): 这是模型能够处理的输入序列的最大长度。Mixtral 经过训练支持 32k 标记的上下文长度。这使得它能够有效地从长达 32k 标记的上下文窗口中检索信息

Mixtral 8x7B – Instruct: 这是 Mixtral 8x7B 的一个微调版本，专门用于遵循指令。

监督微调 (Supervised fine-tuning, SFT): 这是训练 Mixtral – Instruct 使用的方法之一。

直接偏好优化 (Direct Preference Optimization, DPO): 这是训练 Mixtral – Instruct 使用的另一种方法，基于配对反馈数据集进行优化

Apache 2.0 许可证 (Apache 2.0 license): Mixtral 的基础模型和 Instruct 模型都以这个开放许可证发布，允许学术和商业使用。

vLLM 项目: 这是一个开源项目，为了使社区能够用完全开源的栈运行 Mixtral，该论文作者向 vLLM 项目提交了修改。

Megablocks CUDA 内核: 这是用于高效运行 MoE 层的专业高性能内核，已被整合到 vLLM 项目中。

Skypilot: 这个工具允许在任何云实例上部署 vLLM 端点。

前馈 (FFN) 子块: 在标准 Transformer 模型中，Mixtral 的混合专家层取代了 Transformer 块中的前馈子块。

SwiGLU 架构: Mixtral 使用SwiGLU 架构作为专家的功能 Ei(x)。

Top-K Logits: 这是一种实现门控网络的简单且高效的方法。通过对线性层输出的 Logits 进行 Top-K 操作并应用 Softmax 来确定门控权重。Mixtral 使用 K=2，这意味着每个标记被路由到两个 SwiGLU 子块。

专家并行 (Expert Parallelism, EP): 这是一种跨多个 GPU 分布 MoE 层的方法。在执行 MoE 层时，目标由特定专家处理的标记会被路由到相应的 GPU 进行处理。

困惑度 (Perplexity): 这是一种衡量语言模型预测样本能力的指标。Mixtral 在 proof-pile 数据集上的困惑度随着上下文长度的增加而单调下降，表明它有效利用了长上下文

偏差基准问题回答 (Bias Benchmark for QA, BBQ): 这是一个用于衡量模型在问答中针对社会群体的潜在偏差的数据集. Mixtral 在 BBQ 基准上的偏差低于 Llama 2 70B

开放式语言生成偏差数据集 (Bias in Open-Ended Language Generation Dataset, BOLD): 这是一个用于衡量模型在开放式文本生成中的偏差的数据集在 BOLD 基准上，Mixtral 总体上比 Llama 2 显示出更积极的情绪.

论文名称：Mixtral of Experts

原文地址：arxiv.org