AI大模型最前沿|DeepSeek、小米和阿里在五一节前都开源了个啥

AI大模型最前沿|DeepSeek、小米和阿里在五一节前都开源了个啥

11分钟 ·
播放数4
·
评论数0

欢迎来到谷粒粒的AI播客节目《硅基奇谈》,一档集前沿技术与生活杂谈的 ENFJ 技术宅播客。

本期深入浅出了三个最新发布的焦点模型:专攻形式化证明的 DeepSeek DeepSeek-Prover-V2-671B,采用了递归证明流程和特殊 RL 策略;小米 MiMo-7B-RL 则展示了 MTP、三阶段数据混合等新颖的训练方法;还有备受推崇、强调 Agent 能力和低成本部署的阿里千问 Qwen3。它们的技术路径有何异同?实际应用潜力和开发者生态如何?快来收听,跟上 AI 推理技术的最前沿!

  • 00:00:00 - 00:00:17: 开场,提到AI界近期的热闹景象,特别是推理能力强的模型。
  • 00:00:17 - 00:00:37: 介绍本次讨论的三个模型:DeepSeek DeepSeek-Prover-V2-671B, 小米 MiMo-7B-RL, 和 阿里千问 Qwen3。
  • 00:00:37 - 00:01:16: 详细讨论 DeepSeek DeepSeek-Prover-V2-671B,包括其目标(形式定理证明)、使用的技术(Lean 4, 递归证明流程, 混合数据冷启动, RL)和评测结果(MiniF2F, ProverBench)。
  • 00:01:16 - 00:01:41: 讨论 DeepSeek-Prover-V2 的巨大规模(671B 参数)及其带来的成本担忧和中文数据问题。
  • 00:01:41 - 00:02:15: 开始讨论 小米 MiMo-7B-RL,强调其 7B 参数规模和针对推理任务的设计。
  • 00:02:15 - 00:03:10: 详细介绍 MiMo-7B-RL 的训练技术,包括超大数据量(2.5万亿 Token)、三阶段数据混合策略、32K 上下文、多令牌预测(MTP)、以及基于 GRPO 的强化学习策略和数据处理。
  • 00:03:10 - 00:03:35: 讨论小红书上对 MiMo-7B-RL 的反馈:关注小模型潜力、新技术效果、小米入局、团队背景以及落地应用。
  • 00:03:35 - 00:04:11: 开始讨论 阿里千问 Qwen3,主要基于小红书的用户反馈。提到其混合推理、多模态能力、Agent 潜力、以及较低的部署成本和开发者友好性。
  • 00:04:11 - 00:04:25: 提及 Qwen3 在国产模型中的受欢迎程度(成本、开源协议)以及周边生态(文档、API)有待加强的反馈。
  • 00:04:25 - 00:05:01: 对比三个模型的发展路径:DeepSeek(专精、极致规模)、MiMo(小模型、巧训练)、Qwen3(应用广度、弹性、生态)。
  • 00:05:01 - 00:05:17: 总结三个模型的特点:DeepSeek(数学巨无霸)、MiMo(小钢炮挑战者)、Qwen3(多功能、开发者友好)。
  • 00:05:17 - 00:05:34: 讨论关注这些进展的意义:了解AI推理前沿、不同公司的取舍、技术挑战和未来趋势。
  • 00:05:34 - 结尾: 提出思考问题:AI 推理的下一个瓶颈在哪里(算力、算法、应用整合、还是全新方向)。

无论是 DeepSeek 的“力大砖飞”,MiMo 的“算法为王”,还是 Qwen3 的“生态优先”,AI 推理的竞赛显然才刚刚开始升温。但当这些模型能力越来越强,我们是否也该思考另一个问题:它们强大的推理能力,会不会催生出我们现在还无法想象的全新应用,甚至...全新的风险?关于这一点,我们或许会在未来的节目中继续探讨。

感谢收听,关注转发,我们下次再聊!