顶级AI也难以预判下一秒

顶级AI也难以预判下一秒

6分钟 ·
播放数11
·
评论数0

论文:FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

一句话总结

给 AI 看一段视频 + 声音,让它预测接下来会发生什么,结果发现:现在最强的 AI 也才考 60 多分,离人类差很远。这篇论文做了一个专门考 AI “预知未来” 能力的考试,叫 FutureOmni

简单拆解

给 AI 看一段视频、同时听里面的声音,让它预测接下来会发生什么

1. 考什么?

  • 919 个视频、1034 道选择题,覆盖 8 大类日常场景。

2. 考题规模

  • 尤其是有很多人说话的视频,AI 更懵。

3. 考得怎么样?目前最强模型(Gemini 3 Flash)

  • 准确率只有 64.8%,远不如人类。

4. 作者做了什么?

  • 做了第一个专门测 “视听 + 预判未来” 的标准考试
  • 发现 AI 普遍不行
  • 自己做了一套训练方法,稍微提升了一点能力