论文：FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
一句话总结
给 AI 看一段视频 + 声音，让它预测接下来会发生什么，结果发现：现在最强的 AI 也才考 60 多分，离人类差很远。这篇论文做了一个专门考 AI “预知未来” 能力的考试，叫 FutureOmni。
简单拆解
给 AI 看一段视频、同时听里面的声音，让它预测接下来会发生什么。
1. 考什么？
* 919 个视频、1034 道选择题，覆盖 8 大类日常场景。
2. 考题规模
* 尤其是有很多人说话的视频，AI 更懵。
3. 考得怎么样？目前最强模型（Gemini 3 Flash）
* 准确率只有 64.8%，远不如人类。
4. 作者做了什么？
* 做了第一个专门测 “视听 + 预判未来” 的标准考试
* 发现 AI 普遍不行
* 自己做了一套训练方法，稍微提升了一点能力

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

大模型发展日新月异，但大量评测、以及技术相关论文内容专业、结构复杂、信息密集，想读懂一篇往往要花费数小时。为了降低理解门槛，我们用博客的形式拆解每一篇经典或前沿的大模型相关论文。
每篇内容控制在10分钟阅读量以内，围绕：
- 🧠 核心问题与研究动机
- 🛠️ 方法拆解与创新点
- 📊 实验设计与结果分析
- 🧭 结论反思与实践启发
适合评测同学、算法同学运营产品、以及对大模型感兴趣的学习者在碎片时间高效获取论文精华，轻松跟上大模型领域的最新进展。

AI_SUMMARIZE_EPISODE

听论文-懂大模型评测

顶级AI也难以预判下一秒

689b02344cbd503733d7aa25/lhYWBCm4Z-YELA8nVF9NSwXVg7Jq.m4a