LongVidSearch: An Agentic Benchmark for Multi-hop EvidenceRetrieval Planning in Long Videos
这篇论文的核心是解决长视频问答的一个关键难题 —— 让 AI 能像人一样,从长达几十分钟的视频里 “跳着找证据”,一步步拼凑出复杂问题的答案,而不是只能被动接收固定片段。研究者们为此打造了一个叫LongVidSearch的基准测试(可以理解为 “长视频多步找证据考试卷”),专门评估 AI 的这种 “主动检索 + 多步推理” 能力。
先说说之前的问题出在哪:
- 很多所谓的 “多步问答” 其实有捷径 ——AI 不用真的找多个证据,靠单个画面或常识就能蒙对,没法检验真实推理能力;
- 没有统一的 “找证据工具”—— 不同 AI 用不同的检索方式,没法公平比较是 “找证据能力差” 还是 “回答能力差”。
这个新基准 LongVidSearch 就针对性解决了这些问题:
1. 试卷设计超严格:必须多步找证据,缺一不可
- 包含 3000 个问题,来自 447 个平均 26 分钟的长视频(比如纪录片、教程),问题分 2 步、3 步、4 步三种难度(比如 2 步问题需要找 2 个不连续的证据片段,少一个就答不出来);
- 问题涵盖四种核心能力:视觉追踪(比如找视频里多次出现的同一个物品);
状态变化(比如看一个东西从完整到损坏的过程);
因果推理(比如找 “因为 A 事件,所以 B 事件发生” 的两个片段);
全局总结(比如整合多个零散片段,概括视频核心内容); - 还加了 “防作弊机制”:每个问题都要经过测试 —— 如果隐藏任意一个证据片段还能答对,就直接淘汰这个问题,确保 AI 必须真的找全所有证据。
2. 考试规则超公平:统一工具,只比 “找证据 + 规划能力”
- 所有 AI 都用一套统一的 “找证据工具”:只能通过 “搜索片段”“查看片段详情”“提交答案” 三个固定操作来解题,检索的底层逻辑完全一致;
- 不仅看答案对不对,还看 “效率”—— 统计 AI 调用工具的次数,分析 “准确率和耗时的平衡”(比如有的 AI 虽然答对率高,但调用工具次数太多,实际用起来不实用)。
3. 考试结果:AI 表现一般,找证据是主要难点
- 最好的 AI 是 GPT-5,答对率也只有 42.43%,连一半都不到,而且步数越多越难(4 步问题答对率更低);
- 开源 AI 里 Qwen3-VL-32B 表现最好(29.59%),但比闭源的差不少;
- 关键实验证明:如果直接把正确的证据片段给 AI,所有 AI 都能近乎完美地回答,说明 AI 不是 “不会总结答案”,而是 “找不到正确的证据”—— 找证据和规划检索步骤,才是当前的核心瓶颈;
- 常见失败情况:要么搜索时关键词太模糊(比如只搜 “红色的书”,找不到具体书名),要么漏找关键步骤(比如 3 步问题只找到 2 个证据)。
简单说,LongVidSearch 就像一个 “长视频推理能力体检仪”,第一次公平、严格地测出了 AI 在长视频里 “主动找证据、多步拼答案” 的真实水平,也为后续优化指明了方向 —— 重点提升 AI 的 “检索规划能力”,而不是单纯优化回答生成。
