大家好,欢迎收听播客「听懂 100 篇 AI 经典论文」
本期节目,我们将探讨的论文是关于Mixtral 8x7B 模型的!这个由 Mistral AI 推出的开源模型,正在以前所未有的方式挑战现有大型语言模型的格局。
本期播客中你将听到 (Outline):
- Mixtral 8x7B 为什么特别? Mixtral 采用了创新的稀疏混合专家 (Sparse Mixture of Experts - SMoE) 架构1...。想象一个拥有 8 位顶级专家的团队,但在处理每项任务(每个词元)时,只会智能地派遣其中 两位 出马。这种设计让它在拥有 470 亿总参数的同时1,推理时实际激活的参数只有 130 亿,效率大大提升!
- 性能炸裂! Mixtral 在多项标准基准测试中 超越或匹敌了强大的 Llama 2 70B 和 GPT-3.5。尤其在 数学、代码生成和多语言任务(如法语、德语、西班牙语、意大利语)上,它的表现显著优于 Llama 2 70B。
- 指令微调版更强大! 论文还推出了经过优化的 Mixtral 8x7B – Instruct 版本,它在人类评估基准测试中表现惊人,甚至超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 等知名模型。而且,它的偏见更少,情感倾向更平衡。
- 长文本能力突出: Mixtral 支持高达 32k 词元 的上下文窗口,并在长文本检索任务中展现了出色的能力。
- 重磅开源: 最令人兴奋的是,Mixtral 8x7B 和 Mixtral 8x7B – Instruct 都以友好的 Apache 2.0 许可证 发布,这意味着可以免费用于学术和商业用途,极大地降低了使用门槛。
- 背后的秘密: 我们还将简要探讨论文中关于专家路由器的有趣分析,比如它似乎更多地根据语法结构而非主题来选择专家。
- 更多细节:
- 稀疏混合专家 (SMoE) 架构是如何工作的。
- Mixtral 8x7B 的实际性能如何,特别是与 Llama 2 70B 和 GPT-3.5 的对比。
- 指令微调版 Mixtral 8x7B – Instruct 的亮点和优势。
- 为什么 Mixtral 在效率和可访问性方面具有重要意义。
- 模型内部关于专家选择的一些初步发现。
关键概念速查 (Key Concepts Explained):
专家 (Experts): 在 Mixtral 的 SMoE 架构中,专家是模型每一层中的标准前馈网络块。Mixtral 模型共有 8 个专家。
路由网络 (Router network): 这是 SMoE 架构中的一个组件,负责为每个输入标记在每一层选择要使用的专家。它根据输入计算门控网络的输出权重来选择专家4. Mixtral 的路由网络选择排名前 2 的专家进行处理
活跃参数 (Active parameters): 这是指模型在处理单个标记时实际使用的参数数量1...。Mixtral 8x7B 在推理过程中只使用 13B 的活跃参数1...。
稀疏参数总数 (Sparse parameter count): 这是模型的总参数数量。对于 Mixtral 8x7B,这个总数是 47B 参数。尽管总参数量大,但由于只使用部分专家,活跃参数数量较少。
上下文长度 (Context size): 这是模型能够处理的输入序列的最大长度。Mixtral 经过训练支持 32k 标记的上下文长度。这使得它能够有效地从长达 32k 标记的上下文窗口中检索信息
Mixtral 8x7B – Instruct: 这是 Mixtral 8x7B 的一个微调版本,专门用于遵循指令。
监督微调 (Supervised fine-tuning, SFT): 这是训练 Mixtral – Instruct 使用的方法之一。
直接偏好优化 (Direct Preference Optimization, DPO): 这是训练 Mixtral – Instruct 使用的另一种方法,基于配对反馈数据集进行优化
Apache 2.0 许可证 (Apache 2.0 license): Mixtral 的基础模型和 Instruct 模型都以这个开放许可证发布,允许学术和商业使用。
vLLM 项目: 这是一个开源项目,为了使社区能够用完全开源的栈运行 Mixtral,该论文作者向 vLLM 项目提交了修改。
Megablocks CUDA 内核: 这是用于高效运行 MoE 层的专业高性能内核,已被整合到 vLLM 项目中。
Skypilot: 这个工具允许在任何云实例上部署 vLLM 端点。
前馈 (FFN) 子块: 在标准 Transformer 模型中,Mixtral 的混合专家层取代了 Transformer 块中的前馈子块。
SwiGLU 架构: Mixtral 使用SwiGLU 架构作为专家的功能 Ei(x)。
Top-K Logits: 这是一种实现门控网络的简单且高效的方法。通过对线性层输出的 Logits 进行 Top-K 操作并应用 Softmax 来确定门控权重。Mixtral 使用 K=2,这意味着每个标记被路由到两个 SwiGLU 子块。
专家并行 (Expert Parallelism, EP): 这是一种跨多个 GPU 分布 MoE 层的方法。在执行 MoE 层时,目标由特定专家处理的标记会被路由到相应的 GPU 进行处理。
困惑度 (Perplexity): 这是一种衡量语言模型预测样本能力的指标。Mixtral 在 proof-pile 数据集上的困惑度随着上下文长度的增加而单调下降,表明它有效利用了长上下文
偏差基准问题回答 (Bias Benchmark for QA, BBQ): 这是一个用于衡量模型在问答中针对社会群体的潜在偏差的数据集. Mixtral 在 BBQ 基准上的偏差低于 Llama 2 70B
开放式语言生成偏差数据集 (Bias in Open-Ended Language Generation Dataset, BOLD): 这是一个用于衡量模型在开放式文本生成中的偏差的数据集在 BOLD 基准上,Mixtral 总体上比 Llama 2 显示出更积极的情绪.
了解更多 (Where to Learn More):
论文名称:Mixtral of Experts
原文地址:arxiv.org
