论文:OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Model
一句话核心结论
当前顶尖大视觉语言模型,在奥赛级多图联合推理上能力严重不足,即便最强模型准确率也仅约 50%,远达不到可靠解题水平。
它到底研究了啥
提出OMIBench基准,专门评测大视觉语言模型,在证据分散于多张图片的奥赛级题目中的跨图推理能力。
研究场景
奥赛级多图推理:题目证据分布在多张图片里,覆盖生物、化学、数学、物理四大奥赛科目。
测试对象
当前最强的大视觉语言模型(LVLMs),包括Gemini-3-Pro等主流顶流模型。
怎么测的
构建带人工标注解析的奥赛级多图题目集
用精确匹配与语义匹配两套评估标准
全面测试现有模型的跨图推理性能
测出来啥结果
所有模型都存在显著性能差距,最强模型准确率仅约50%
模型无法有效整合多张图片的关键信息
现有技术在奥赛级多图推理上远未成熟
