本期简介
你团队辛辛苦苦做出来的AI Agent,内部演示100分,CTO拍板上线,结果一周后客户发来“友好的”投诉邮件?任务完成率从100%暴跌到62%,用户说的“帮我踢一脚那个服务”直接把Agent干蒙了。
这不是段子,这是真实发生的“测试集陷阱”。
本期播客,我们将基于一篇硬核的技术文档,为你拆解一套工业级的 Agent 评估体系。我们将从一个令人心碎又充满启发的高台跳水故事开始,带你彻底理解:为什么评估一个Agent,远比评估一个LLM要复杂得多? 以及,除了“答案对不对”,你还必须关注哪三个维度的关键指标?
无论你是AI产品经理、交付负责人,还是正在构建Agent的技术开发者,这期内容都将帮你建立起一套完整的评估思维框架,让你在验收Agent时更有底气,在向客户汇报时更加专业。
本期重点
[] 一个血泪故事:演示100分,上线62分
IT运维Agent的完美演示如何在上线第一周“翻车”。
“服务器宕机” vs “那个破服务器又挂了”——真实用户语言带来的挑战。
揭示测试集表现与生产环境表现之间的巨大鸿沟。
[] 洞见:Agent评估,为什么这么难?
Agent评估 vs. LLM评估:核心差异在于评估“过程”还是“结果”。
Agent的决策链条:Thought(思考)、Action(行动)、Observation(观察)每一步都可能出错。
用一个“查服务器并重启”的例子,展示评估一个Agent的复杂性。
[] 核心框架:三层评估体系
层1:组件级(Component-Level) - 每个零件好用吗?(RAG检索精准度、工具调用准确率)
层2:任务级(Task-Level) - 整个任务完成得怎么样?(任务完成率、端到端延迟、每个任务Token成本)
层3:系统级(System-Level) - 长期运行健康吗?(用户满意度、成本趋势、易错任务分布)
关键认知: 上线前看层1和层2,上线后主要依赖层3的在线监控。
[] 实操全景:从零跑通一次Agent评估
如何构建“活”的评估集(Eval Set)?—— 不是越大越好,要分层、要真实、要持续更新。
如何用
LLM-as-Judge高效判断任务是否完成?—— 澄清一个误解:它不是一个Agent在评估另一个Agent。Agent验收的最低门槛是什么?—— 完成率、延迟、成本、安全红线,缺一不可。
评估的终极价值:如何将评估结果转化为具体的优化行动?(工具描述改一下、Chunk Size调一调、Prompt加强约束……)
[] 核心总结
一句话记住Agent评估的本质:不只是看“报告写得好不好”,还要看“过程是否高效、成本是否可控、用户是否接受”。
关键行动清单:除了准确率,你还需要关注延迟、成本和用户满意度。
