MiniMax-M1：Lightning Attention与CISPO算法，实现百万Token上下文的75%算力节省？

📜 节目概要：

本期节目，我们将深入剖析一篇来自 MiniMax 的重磅开源技术报告——《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》。这篇报告详细介绍了全球首个开源的大规模混合注意力推理模型 MiniMax-M1，它通过创新的混合专家（MoE）架构与“闪电注意力”（Lightning Attention）机制相结合，在拥有 4560 亿庞大参数量的同时，实现了极高的计算效率和长文本处理能力。我们将一同拆解其背后的关键技术，从如何原生支持百万级 Token 上下文，到为何在生成长序列时计算量仅为同类模型的 25%；从其为提升强化学习效率而提出的全新算法 CISPO，到如何在软件工程、工具使用等真实世界任务中展现出卓越性能。此外，我们还将探讨 M1 的开源对于整个 AI 社区的意义，以及它为下一代更强大、更自主的 AI 智能体（Agent）铺平了怎样的道路。

📚 参考论文：

标题：MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

作者：MiniMax Team

链接：2506.13585

📝 节目重点：

00:00 引言：深入解读 MiniMax-M1 技术报告

00:35 核心揭秘：MiniMax-M1 是什么？(MoE 架构与 4560 亿参数)

01:12 混合专家 (MoE) 架构：为何能兼顾“大”与“快”？

01:56 关键技术一：闪电注意力 (Lightning Attention)

02:43 百万 Token 上下文：能力边界的革命性拓展

03:53 长文本能力的实际价值：从法律文书到科研探索

05:58 关键技术二：超高计算效率 (25% FLOPs)

07:35 关键技术三：全新强化学习算法 CISPO

08:04 CISPO vs PPO：如何保留关键的“反思性词语”？

10:32 训练解密：M1 如何在真实世界任务中学习？(SWE-bench)

12:44 攻克技术难题：解决训练与推理的精度不匹配问题

13:43 训练成本与周期：三周 512 张 H800，成本几何？

14:41 性能全方位评测：M1 在各大基准上的真实表现

16:42 核心优势领域：在软件工程、工具使用和长文本理解上超越竞品

19:02 核心启示：M1 的发布对我们意味着什么？

19:22 启示一：效率与能力并重的新技术路径

19:43 启示二：开源的巨大价值与社区推动力

20:20 总结与展望：M1 如何为下一代 AI 智能体铺平道路？