【第607期】AlphaEval:生产环境下的AI智能体综合评估基准Seventy3

【第607期】AlphaEval:生产环境下的AI智能体综合评估基准

21分钟 ·
播放数0
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

AlphaEval: Evaluating Agents in Production

Summary

AI 智能体在商业场景中的快速部署,已经超过了能够真实反映生产环境的评测方法的发展速度。现有基准测试通常通过事后整理(retrospectively curated)的任务来衡量智能体能力,这些任务具有明确规定的需求和确定性的评价指标——而这些条件与真实生产环境存在根本差异。

在实际生产环境中:

  • 需求往往包含隐含约束;

  • 输入是异构的多模态文档,且信息分散于多个来源;

  • 任务需要未被显式声明的领域专业知识;

  • 输出通常是长周期的专业交付物;

  • 成功标准由领域专家判定,并且这些标准会随时间变化。

我们提出了 AlphaEval,一个基于真实生产环境构建的基准测试集,包含来自七家在核心业务中部署 AI 智能体的公司的 94 项任务,覆盖六个 O*NET(职业信息网络)领域。

与以模型为中心的基准测试不同,AlphaEval 评估的是完整的智能体产品——例如 Claude Code、Codex 等——将其视为商业系统进行整体评测,从而能够捕捉模型级评估无法观察到的性能差异。

我们的评测框架覆盖多种评估范式,包括:

  • LLM-as-a-Judge(LLM 评审)

  • 基于参考答案的指标(reference-driven metrics)

  • 形式化验证(formal verification)

  • 基于 rubric 的评估

  • 自动化 UI 测试

  • 等等

不同领域会组合使用多种评测范式。

除了基准本身之外,我们还提出了一套“从需求到基准”的构建框架(requirement-to-benchmark construction framework):一种系统化方法,能够在最短时间内,将真实生产需求转化为可执行的评测任务。

该框架对从需求到评估的整个流程进行了标准化,提供了一种可复现、模块化的过程,使任何组织都能够为自身领域构建基于真实生产环境的评测基准。

原文链接:arxiv.org