EP69：深入探讨Langfuse经典好文《如何评测LLM Agents》

本文《Agent Evaluation: How to Evaluate LLM Agents》旨在深入探讨大型语言模型（LLM）智能体评估的核心框架、策略及最佳实践。智能体由于具备自主决策、多步推理和工具调用的能力，其评估复杂度远超单次 LLM 调用。LLM 智能体并非简单的模型调用，而是处于“推理-行动-环境交互-反馈”持续循环中的自主系统。评估智能体不仅要看最终输出，还必须分析其决策轨迹（Trajectory）和每一个中间步骤。有效的评估体系应涵盖三个阶段：从早期的手动追踪，到用户上线后的在线评估，再到规模化阶段的离线自动化测试。核心评估策略分为三层：黑盒评估（仅看最终结果）、破壳评估（检查执行路径）和白盒评估（针对单步决策的单元测试）。

1. 理解 LLM 智能体及其复杂性

1.1 什么是 LLM 智能体？

LLM 智能体是一个在持续循环中运行的自主系统。其工作流程如下：

输入与推理：接收用户输入或上一步的反馈。

行动：决定调用外部工具（如搜索 API、数据库查询或代码解释器）。

环境交互：工具与环境交互并产生反馈。

反馈循环：反馈信息传回 LLM，循环继续，直到智能体生成最终答案。

这个完整的事件序列被称为**“追踪”（Trace）或“轨迹”（Trajectory）**，它是智能体评估的核心对象。

1.2 为什么传统评估方式不够？

对于简单的 LLM 调用，单一的准确性评分可能足够。但智能体可能会在多个环节出错，例如：

理解不足：在实际流量中无法理解工具调用逻辑。

规范不明：提示词或示例未能清晰编码“好行为”的标准，导致智能体随机发挥。

泛化失败：在特定示例上表现良好，但在处理略有不同的现实查询时失效。

2. 智能体评估的三个阶段

评估并非一蹴而就，而是一个随智能体成熟而演进的过程。

3. 三大核心评估策略

根据粒度不同，智能体评估可分为以下三类策略：

3.1 最终响应评估（黑盒评估）

定义：仅评估用户的输入和智能体的最终回答，忽略所有中间步骤。

优点：设置简单，适用于任何智能体框架。

缺点：无法解释失败的具体原因（即“为什么”出错）。

3.2 轨迹评估（破壳评估）

定义：检查智能体是否走在了“正确的路径”上。将实际的工具调用序列与基准数据集中的预期序列进行对比。

作用：当最终答案错误时，可以精准定位推理过程中的断裂点。

3.3 单步评估（白盒评估）

定义：类似于代码的单元测试。不运行整个智能体，而是孤立测试每一个决策步骤。

应用场景：验证搜索查询的构造、API 参数的准确性或工具选择的逻辑。

4. 实施路线图：构建自动化评估流程

实施一套完整的智能体评估系统通常遵循以下步骤：

启用追踪：集成 SDK 以自动记录智能体的每一个动作、推理步骤和中间输出。

构建基准数据集：数据集应包含用户输入、预期输出的关键事实、预期的工具调用轨迹以及特定的工具参数（如预期的搜索词）。

设置评估器（LLM-as-a-judge）：最终响应评估器：测试输出质量。
轨迹评估器：验证工具调用序列的正确性。
搜索质量评估器：验证智能体生成的检索查询是否精准。

运行实验与对比：在数据集上运行不同模型和提示词配置，通过实验对比视图做出数据驱动的决策。

5. 关键最佳实践

追踪优先，评分在后：在构建自动评估器之前，应先手动审查追踪。通过观察模式来确定对业务场景最重要的指标。

明确成功标准：为每个测试用例定义清晰的“正确”定义。模糊的标准会导致不稳定的评估结果。

三层架构协同：同时使用黑盒、破壳和白盒评估。最终响应告诉你“什么”出错了，轨迹评估告诉你“哪里”出错了，单步评估告诉你“为什么”出错。

基于真实失败构建数据集：最有价值的测试用例源于生产环境中失败的真实轨迹。通过标注队列将这些案例转化为基准测试。

集成至 CI/CD：将评估集成到部署流水线中。如果新版本的评分在基准数据集上出现下降，应拦截该部署。

6. 常见问题解答 (FAQ)

智能体评估与 LLM 评估有何不同？ LLM 评估关注响应质量；智能体评估则关注决策链，包括工具选择、参数传递及停止时机的判断。

可以使用 LLM 作为裁判（LLM-as-a-judge）吗？ 可以。由于智能体输出过于复杂，简单的规则检查往往失效。针对不同评估层级（响应、轨迹、步骤）设计专门的裁判提示词是目前最有效的方法。

评估应该运行多频繁？ 离线评估应在每次更改提示词、模型或工具配置前运行。在线评估应在生产环境中持续运行，以捕捉实时流量中的异常。

**📺播客说明**

本播客采用虚拟主持人进行播客翻译的音频制作，因此有可能会有一些地方听起来怪怪的。如想了解更多信息，请关注微信公众号"西经东译"获取AI最新资讯。如有后续想要听的其他外文播客，也欢迎联系微信：mayday2303。