MinerU2.5：轻量级模型如何实现SOTA级文档理解

📜 节目概要：

本期节目，我们深入解读一篇来自上海人工智能实验室的重磅研究——《MinerU2.5》。这篇论文直击了当前视觉语言模型处理高分辨率、复杂文档时的“效率”与“精度”难以两全的痛点。我们将详细拆解其开创性的“解耦式”两阶段解析策略，看它如何像一位经验丰富的指挥家，先用“全局速览”（粗粒度布局分析）快速定位关键信息，再派“专家小队”（细粒度内容识别）对局部进行精准打击，从而在保证SOTA级识别精度的同时，将计算开销降低一个数量级。此外，我们还将揭秘其背后强大的“闭环数据引擎”，看一个仅有12亿参数的轻量级模型，如何在特制数据的“喂养”下，其文档解析能力全面超越了像Gemini 2.5 Pro这样的通用巨头和众多领域专用模型。

📚 参考论文：

标题：MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

作者：Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al. (Shanghai Artificial Intelligence Laboratory, Peking University, Shanghai Jiao Tong University)

链接：MinerU2_5

📝 节目重点：

01:38 告别蛮力计算：详解MinerU2.5的核心思想——“粗-细结合”的两阶段策略，它如何通过分离全局布局分析与局部内容识别，巧妙规避了处理高分辨率图像时的O(N²)计算灾难？

06:45 模型的“炼金术士”：深入剖析其独特的“闭环数据引擎”。特别是“通过推理一致性进行迭代挖掘”（IMIC）的策略，是如何自动从海量数据中“淘”出最有价值的“硬骨头”样本进行人工精标，实现模型的持续自我进化？

11:20 （1）布局分析：超越传统边界框，引入全新的PageIoU评价指标，并一步到位同时预测位置、类别、旋转角度和阅读顺序。

14:10 （2）公式识别：拆解其“原子化拆解与重组”（ADR）框架，看它如何将复杂的多行公式“化整为零”，再“聚零为整”，优雅解决长公式识别难题。

16:55 （3）表格识别：为何放弃HTML，转而拥抱更精简的“优化表格结构语言”（OTSL）？这一改变如何将平均序列长度缩短50%，大幅提升复杂表格的解析鲁棒性？

19:30 实践是检验真理的唯一标准：一个12亿参数的模型，为何能在OmniDocBench等多个权威基准上，其综合表现超越dots.ocr、MonkeyOCR等专用模型，甚至击败了Gemini 2.5 Pro？

22:15 效率的飞跃：不仅仅是更准，更是更快！在A100 GPU上，MinerU2.5的端到端吞吐量如何做到比MonkeyOCR快4倍，比dots.ocr快7倍？

24:05 核心启示：为何说MinerU2.5不仅是一个SOTA模型，更是“LLM时代的基础设施”？它如何为高质量语料库的构建和下一代检索增强生成（RAG）系统铺平道路？