AI代理为何失败:四层能力金字塔诊断南电九章

AI代理为何失败:四层能力金字塔诊断

20分钟 ·
播放数0
·
评论数0

介绍了在强化学习(RL)环境中对前沿AI模型进行的测试,这些环境模拟了现实世界中的工作场所。研究人员将九个AI模型(包括GPT-5和Claude Sonnet 4.5)放入一个虚拟的客户支持角色中,并给它们分配了150项任务,以评估它们的代理能力。这些测试揭示了一个代理能力层级结构,从最基础的工具使用和目标制定,到适应性和现实性,直到最高阶的常识推理。文章指出,即使是表现最好的模型也未能完美完成任务,它们的失败模式系统性地揭示了它们在从基础操作到复杂推理等不同能力层面上所处的水平。这项研究旨在回答这些智能体能做多少具有经济价值的工作这一关键问题,并为未来**通用智能体(AGI)**的开发和评估指明方向。