当我们还在用简单的模拟数据哄AI时,TOOLATHLON直接开启了一场残酷的真实世界“十项全能”!这项基准测试拒绝“玩具”环境,构建了一个包含Snowflake、Kubernetes等32个真实应用和604个工具的复杂数字生态。在这里,Agent不仅要面对人类真实的“模糊指令”,还要在平均20轮的交互中自行摸索规划。在这场大考面前,即便是顶尖的Claude-4.5-Sonnet也仅有38.6%的胜率,堪称大模型走出实验室后的第一本生存指南。
原文题目:THE TOOL DECATHLON: BENCHMARKING LANGUAGE AGENTS FOR DIVERSE, REALISTIC, AND LONGHORIZON TASK EXECUTION
原文链接:arxiv.org
你将听到 :
- 现有的语言智能体基准测试在任务多样性、环境状态真实度以及长程任务复杂度方面存在哪些主要局限?
- TOOLATHLON 如何通过整合32个真实应用、604个工具以及模仿人类真实意图的“模糊指令”,构建出一个高难度的“十项全能”评估环境?
- 为了突破传统静态评估的限制,该框架采用了怎样的“执行式评估”机制和容器化技术来确保测试的可靠性与安全性?
- 在面对平均20轮交互的长程任务时,Claude-4.5-Sonnet 和 DeepSeek-V3.2-Exp 等顶尖模型的实际胜率如何,这反映了当前技术处于什么水平?
