AI Agent评测，别再只看“答对了没”！— 一个故事讲透“三层评估”体系

本期简介

你团队辛辛苦苦做出来的AI Agent，内部演示100分，CTO拍板上线，结果一周后客户发来“友好的”投诉邮件？任务完成率从100%暴跌到62%，用户说的“帮我踢一脚那个服务”直接把Agent干蒙了。

这不是段子，这是真实发生的“测试集陷阱”。

本期播客，我们将基于一篇硬核的技术文档，为你拆解一套工业级的 Agent 评估体系。我们将从一个令人心碎又充满启发的高台跳水故事开始，带你彻底理解：为什么评估一个Agent，远比评估一个LLM要复杂得多？ 以及，除了“答案对不对”，你还必须关注哪三个维度的关键指标？

无论你是AI产品经理、交付负责人，还是正在构建Agent的技术开发者，这期内容都将帮你建立起一套完整的评估思维框架，让你在验收Agent时更有底气，在向客户汇报时更加专业。

本期重点

[00:01:00] 一个血泪故事：演示100分，上线62分
- IT运维Agent的完美演示如何在上线第一周“翻车”。
- “服务器宕机” vs “那个破服务器又挂了”——真实用户语言带来的挑战。
- 揭示测试集表现与生产环境表现之间的巨大鸿沟。
[00:08:30] 洞见：Agent评估，为什么这么难？
- Agent评估 vs. LLM评估：核心差异在于评估“过程”还是“结果”。
- Agent的决策链条：Thought（思考）、Action（行动）、Observation（观察）每一步都可能出错。
- 用一个“查服务器并重启”的例子，展示评估一个Agent的复杂性。
[00:15:00] 核心框架：三层评估体系
- 层1：组件级（Component-Level） - 每个零件好用吗？（RAG检索精准度、工具调用准确率）
- 层2：任务级（Task-Level） - 整个任务完成得怎么样？（任务完成率、端到端延迟、每个任务Token成本）
- 层3：系统级（System-Level） - 长期运行健康吗？（用户满意度、成本趋势、易错任务分布）
- 关键认知： 上线前看层1和层2，上线后主要依赖层3的在线监控。
[00:22:00] 实操全景：从零跑通一次Agent评估
- 如何构建“活”的评估集（Eval Set）？—— 不是越大越好，要分层、要真实、要持续更新。
- 如何用 LLM-as-Judge 高效判断任务是否完成？—— 澄清一个误解：它不是一个Agent在评估另一个Agent。
- Agent验收的最低门槛是什么？—— 完成率、延迟、成本、安全红线，缺一不可。
- 评估的终极价值：如何将评估结果转化为具体的优化行动？（工具描述改一下、Chunk Size调一调、Prompt加强约束……）
[00:30:00] 核心总结
- 一句话记住Agent评估的本质：不只是看“报告写得好不好”，还要看“过程是否高效、成本是否可控、用户是否接受”。
- 关键行动清单：除了准确率，你还需要关注延迟、成本和用户满意度。