两张图难倒顶级AI

两张图难倒顶级AI

13分钟 ·
播放数7
·
评论数0

论文:OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Model

一句话核心结论

当前顶尖大视觉语言模型,在奥赛级多图联合推理上能力严重不足,即便最强模型准确率也仅约 50%,远达不到可靠解题水平。


它到底研究了啥

提出OMIBench基准,专门评测大视觉语言模型,在证据分散于多张图片的奥赛级题目中的跨图推理能力。


研究场景

奥赛级多图推理:题目证据分布在多张图片里,覆盖生物、化学、数学、物理四大奥赛科目。


测试对象

当前最强的大视觉语言模型(LVLMs),包括Gemini-3-Pro等主流顶流模型。


怎么测的

  • 构建带人工标注解析的奥赛级多图题目集

  • 用精确匹配与语义匹配两套评估标准

  • 全面测试现有模型的跨图推理性能


测出来啥结果

  1. 所有模型都存在显著性能差距,最强模型准确率仅约50%

  2. 模型无法有效整合多张图片的关键信息

  3. 现有技术在奥赛级多图推理上远未成熟