MiniCPM-V 4.5：“效率”不是妥协！我们正在见证多模态的“精巧革命”

📜 节目概要：

本期节目，我们一起“烹饪”一道AI界的“反常识”大餐——来自OpenBMB团队的MiniCPM-V 4.5。这款仅有8B参数的开源多模态模型，却在多个硬核榜单上叫板GPT-4o和72B的行业巨头。我们将深入拆解其成功背后的三大“独家秘方”：一是颠覆性的“统一3D Resampler”架构，如何通过时空联合压缩，将视频处理效率提升十倍以上；二是从“原始图片直接学”的统一学习范式，如何巧妙绕开传统文档处理的工程噩梦；三是兼顾深度与效率的“混合强化学习”策略，如何训练出一个既能长篇大论又能言简意赅的“双面”模型。这不仅是一次技术的胜利，更是一场关于“巧劲”战胜“蛮力”的精彩演绎。

📚 参考论文：

标题：MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data and Training Recipes

作者：Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang (MiniCPM-V Team, OpenBMB)

链接：2509.18154

📝 节目重点：

00:36 “这不科学”：一个8B模型，为何能在硬核榜单上挑战GPT-4o和72B的Qwen？揭开MiniCPM-V 4.5以小博大的秘密。

02:15 架构硬菜——“统一3D Resampler”：多模态模型最大的效率瓶颈在哪？看这个智能“压缩机”如何将视频token压缩十几倍。

05:07 设计的核心权衡：为什么非要把视频帧“打包”做3D压缩？揭秘“时空联合压缩”如何保留关键的“动态”信息，而非牺牲画质。

06:50 解锁新能力：极致的压缩率如何赋能模型处理高帧率和长视频，为体育分析、手语翻译等精细任务带来曙光？

08:20 数据新范式——告别PDF解析噩梦：剖析“文档知识和OCR的统一学习范式”，看模型如何直接从“原始图片”中学习，绕开脆弱的外部解析工具。

09:57 “污染”的艺术：揭秘低、中、高三种“污染”等级如何将OCR、视觉文本理解和知识推理这三个任务统一到同一个训练框架下。

12:26 训练甜点——“混合强化学习策略”：如何让一个模型同时精通“话痨”式的长推理（CoT）和“实干家”式的短推理模式？

13:49 1+1>2的“交叉泛化”：长短推理模式的联合优化，为何能让模型在更少的训练成本下，取得更强的推理性能？

16:32 “精耕细作” vs “大力出奇迹”：对比MiniCPM与行业巨头的不同技术路线，探讨精巧设计如何成为中小规模模型挑战巨无霸的利器。

18:06 未来标配预测：为什么说“时空联合压缩”和“从原始图片直接学”的范式，将可能成为下一代多模态模型的标准配置？

19:21 核心启示：为何说极致的效率本身，就是一条通往更强性能的康庄大道，而不仅仅是性能的妥协？