论文:FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
一句话总结
给 AI 看一段视频 + 声音,让它预测接下来会发生什么,结果发现:现在最强的 AI 也才考 60 多分,离人类差很远。这篇论文做了一个专门考 AI “预知未来” 能力的考试,叫 FutureOmni。
简单拆解
给 AI 看一段视频、同时听里面的声音,让它预测接下来会发生什么。
1. 考什么?
- 919 个视频、1034 道选择题,覆盖 8 大类日常场景。
2. 考题规模
- 尤其是有很多人说话的视频,AI 更懵。
3. 考得怎么样?目前最强模型(Gemini 3 Flash)
- 准确率只有 64.8%,远不如人类。
4. 作者做了什么?
- 做了第一个专门测 “视听 + 预判未来” 的标准考试
- 发现 AI 普遍不行
- 自己做了一套训练方法,稍微提升了一点能力
