2511.02817 顶尖AI读不懂长文,准确率不到50

2511.02817 顶尖AI读不懂长文,准确率不到50

10分钟 ·
播放数2
·
评论数0

这项研究推出了名为 Oolong 的全新评测基准,旨在解决当前人工智能在处理长文本时仅能简单检索信息而无法进行深度分析的局限。该基准要求模型不仅要对长篇文章中的细微片段进行原子级分析,还需具备跨文本的聚合推理能力,以便回答涉及全局统计、时间演变及用户关系的复杂问题。研究者通过合成任务与真实对话数据进行测试,发现即便是目前最顶尖的旗舰模型,在面对这种高难度的长上下文推理挑战时,准确率也普遍低于 50%。这项工作的核心意义在于通过发布开源工具,推动模型从单纯的“信息拾取”向真正的大规模语境理解演进。