告别“玩具”环境：TOOLATHLON如何用32款真实应用和模糊指令“难倒”大模型

当我们还在用简单的模拟数据哄AI时，TOOLATHLON直接开启了一场残酷的真实世界“十项全能”！这项基准测试拒绝“玩具”环境，构建了一个包含Snowflake、Kubernetes等32个真实应用和604个工具的复杂数字生态。在这里，Agent不仅要面对人类真实的“模糊指令”，还要在平均20轮的交互中自行摸索规划。在这场大考面前，即便是顶尖的Claude-4.5-Sonnet也仅有38.6%的胜率，堪称大模型走出实验室后的第一本生存指南。

原文题目：THE TOOL DECATHLON: BENCHMARKING LANGUAGE AGENTS FOR DIVERSE, REALISTIC, AND LONGHORIZON TASK EXECUTION

原文链接：arxiv.org

你将听到：

- 现有的语言智能体基准测试在任务多样性、环境状态真实度以及长程任务复杂度方面存在哪些主要局限？

- TOOLATHLON 如何通过整合32个真实应用、604个工具以及模仿人类真实意图的“模糊指令”，构建出一个高难度的“十项全能”评估环境？

- 为了突破传统静态评估的限制，该框架采用了怎样的“执行式评估”机制和容器化技术来确保测试的可靠性与安全性？

- 在面对平均20轮交互的长程任务时，Claude-4.5-Sonnet 和 DeepSeek-V3.2-Exp 等顶尖模型的实际胜率如何，这反映了当前技术处于什么水平？