Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
AlphaEval: Evaluating Agents in Production
Summary
AI 智能体在商业场景中的快速部署,已经超过了能够真实反映生产环境的评测方法的发展速度。现有基准测试通常通过事后整理(retrospectively curated)的任务来衡量智能体能力,这些任务具有明确规定的需求和确定性的评价指标——而这些条件与真实生产环境存在根本差异。
在实际生产环境中:
需求往往包含隐含约束;
输入是异构的多模态文档,且信息分散于多个来源;
任务需要未被显式声明的领域专业知识;
输出通常是长周期的专业交付物;
成功标准由领域专家判定,并且这些标准会随时间变化。
我们提出了 AlphaEval,一个基于真实生产环境构建的基准测试集,包含来自七家在核心业务中部署 AI 智能体的公司的 94 项任务,覆盖六个 O*NET(职业信息网络)领域。
与以模型为中心的基准测试不同,AlphaEval 评估的是完整的智能体产品——例如 Claude Code、Codex 等——将其视为商业系统进行整体评测,从而能够捕捉模型级评估无法观察到的性能差异。
我们的评测框架覆盖多种评估范式,包括:
LLM-as-a-Judge(LLM 评审)
基于参考答案的指标(reference-driven metrics)
形式化验证(formal verification)
基于 rubric 的评估
自动化 UI 测试
等等
不同领域会组合使用多种评测范式。
除了基准本身之外,我们还提出了一套“从需求到基准”的构建框架(requirement-to-benchmark construction framework):一种系统化方法,能够在最短时间内,将真实生产需求转化为可执行的评测任务。
该框架对从需求到评估的整个流程进行了标准化,提供了一种可复现、模块化的过程,使任何组织都能够为自身领域构建基于真实生产环境的评测基准。
原文链接:arxiv.org

