AI大模型最前沿｜DeepSeek、小米和阿里在五一节前都开源了个啥 - 硅基奇谭

欢迎来到谷粒粒的AI播客节目《硅基奇谈》，一档集前沿技术与生活杂谈的 ENFJ 技术宅播客。

本期深入浅出了三个最新发布的焦点模型：专攻形式化证明的 DeepSeek DeepSeek-Prover-V2-671B，采用了递归证明流程和特殊 RL 策略；小米 MiMo-7B-RL 则展示了 MTP、三阶段数据混合等新颖的训练方法；还有备受推崇、强调 Agent 能力和低成本部署的阿里千问 Qwen3。它们的技术路径有何异同？实际应用潜力和开发者生态如何？快来收听，跟上 AI 推理技术的最前沿！

00:00:00 - 00:00:17: 开场，提到AI界近期的热闹景象，特别是推理能力强的模型。

00:00:17 - 00:00:37: 介绍本次讨论的三个模型：DeepSeek DeepSeek-Prover-V2-671B, 小米 MiMo-7B-RL, 和阿里千问 Qwen3。

00:00:37 - 00:01:16: 详细讨论 DeepSeek DeepSeek-Prover-V2-671B，包括其目标（形式定理证明）、使用的技术（Lean 4, 递归证明流程, 混合数据冷启动, RL）和评测结果（MiniF2F, ProverBench）。

00:01:16 - 00:01:41: 讨论 DeepSeek-Prover-V2 的巨大规模（671B 参数）及其带来的成本担忧和中文数据问题。

00:01:41 - 00:02:15: 开始讨论小米 MiMo-7B-RL，强调其 7B 参数规模和针对推理任务的设计。

00:02:15 - 00:03:10: 详细介绍 MiMo-7B-RL 的训练技术，包括超大数据量（2.5万亿 Token）、三阶段数据混合策略、32K 上下文、多令牌预测（MTP）、以及基于 GRPO 的强化学习策略和数据处理。

00:03:10 - 00:03:35: 讨论小红书上对 MiMo-7B-RL 的反馈：关注小模型潜力、新技术效果、小米入局、团队背景以及落地应用。

00:03:35 - 00:04:11: 开始讨论阿里千问 Qwen3，主要基于小红书的用户反馈。提到其混合推理、多模态能力、Agent 潜力、以及较低的部署成本和开发者友好性。

00:04:11 - 00:04:25: 提及 Qwen3 在国产模型中的受欢迎程度（成本、开源协议）以及周边生态（文档、API）有待加强的反馈。

00:04:25 - 00:05:01: 对比三个模型的发展路径：DeepSeek（专精、极致规模）、MiMo（小模型、巧训练）、Qwen3（应用广度、弹性、生态）。

00:05:01 - 00:05:17: 总结三个模型的特点：DeepSeek（数学巨无霸）、MiMo（小钢炮挑战者）、Qwen3（多功能、开发者友好）。

00:05:17 - 00:05:34: 讨论关注这些进展的意义：了解AI推理前沿、不同公司的取舍、技术挑战和未来趋势。

00:05:34 - 结尾: 提出思考问题：AI 推理的下一个瓶颈在哪里（算力、算法、应用整合、还是全新方向）。

无论是 DeepSeek 的“力大砖飞”，MiMo 的“算法为王”，还是 Qwen3 的“生态优先”，AI 推理的竞赛显然才刚刚开始升温。但当这些模型能力越来越强，我们是否也该思考另一个问题：它们强大的推理能力，会不会催生出我们现在还无法想象的全新应用，甚至...全新的风险？关于这一点，我们或许会在未来的节目中继续探讨。

感谢收听，关注转发，我们下次再聊！