AI看长视频为何总翻车

LongVidSearch: An Agentic Benchmark for Multi-hop EvidenceRetrieval Planning in Long Videos

这篇论文的核心是解决长视频问答的一个关键难题 —— 让 AI 能像人一样，从长达几十分钟的视频里 “跳着找证据”，一步步拼凑出复杂问题的答案，而不是只能被动接收固定片段。研究者们为此打造了一个叫LongVidSearch的基准测试（可以理解为 “长视频多步找证据考试卷”），专门评估 AI 的这种 “主动检索 + 多步推理” 能力。

先说说之前的问题出在哪：

很多所谓的 “多步问答” 其实有捷径 ——AI 不用真的找多个证据，靠单个画面或常识就能蒙对，没法检验真实推理能力；

没有统一的 “找证据工具”—— 不同 AI 用不同的检索方式，没法公平比较是 “找证据能力差” 还是 “回答能力差”。

这个新基准 LongVidSearch 就针对性解决了这些问题：

1. 试卷设计超严格：必须多步找证据，缺一不可

包含 3000 个问题，来自 447 个平均 26 分钟的长视频（比如纪录片、教程），问题分 2 步、3 步、4 步三种难度（比如 2 步问题需要找 2 个不连续的证据片段，少一个就答不出来）；

问题涵盖四种核心能力：视觉追踪（比如找视频里多次出现的同一个物品）；
状态变化（比如看一个东西从完整到损坏的过程）；
因果推理（比如找 “因为 A 事件，所以 B 事件发生” 的两个片段）；
全局总结（比如整合多个零散片段，概括视频核心内容）；

还加了 “防作弊机制”：每个问题都要经过测试 —— 如果隐藏任意一个证据片段还能答对，就直接淘汰这个问题，确保 AI 必须真的找全所有证据。

2. 考试规则超公平：统一工具，只比 “找证据 + 规划能力”

所有 AI 都用一套统一的 “找证据工具”：只能通过 “搜索片段”“查看片段详情”“提交答案” 三个固定操作来解题，检索的底层逻辑完全一致；

不仅看答案对不对，还看 “效率”—— 统计 AI 调用工具的次数，分析 “准确率和耗时的平衡”（比如有的 AI 虽然答对率高，但调用工具次数太多，实际用起来不实用）。

3. 考试结果：AI 表现一般，找证据是主要难点

最好的 AI 是 GPT-5，答对率也只有 42.43%，连一半都不到，而且步数越多越难（4 步问题答对率更低）；

开源 AI 里 Qwen3-VL-32B 表现最好（29.59%），但比闭源的差不少；

关键实验证明：如果直接把正确的证据片段给 AI，所有 AI 都能近乎完美地回答，说明 AI 不是 “不会总结答案”，而是 “找不到正确的证据”—— 找证据和规划检索步骤，才是当前的核心瓶颈；

常见失败情况：要么搜索时关键词太模糊（比如只搜 “红色的书”，找不到具体书名），要么漏找关键步骤（比如 3 步问题只找到 2 个证据）。

简单说，LongVidSearch 就像一个 “长视频推理能力体检仪”，第一次公平、严格地测出了 AI 在长视频里 “主动找证据、多步拼答案” 的真实水平，也为后续优化指明了方向 —— 重点提升 AI 的 “检索规划能力”，而不是单纯优化回答生成。