【第624期】可观察性驱动的编程智能体测试床自动演进

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

Summary

测试基准环境（Harnesses）目前已成为决定编码智能体（Coding-agent）性能的核心因素，它介导了模型与工具及执行环境之间的交互方式。然而，“基准环境工程”（Harness engineering）目前仍停留在手工制作阶段，因为实现其自动化面临着诸多挑战：可编辑组件之间存在异构的动作空间、海量的运行轨迹（Trajectories）掩埋了具有操作价值的信号、以及改动所产生的效果难以归因。

为此，我们引入了智能体化基准环境工程（Agentic Harness Engineering，简称 AHE）。这是一个闭环系统，通过三个相匹配的可观测性支柱（Observability pillars）来解决上述挑战：

组件可观测性：为每个可编辑的基准环境组件提供文件级的表示，从而使动作空间显式化且可回滚；
体验可观测性：将数百万个原始轨迹 Token 提炼为一个分层的、可逐级下钻的证据语料库，使处于演化中的智能体能够实际消费（利用）这些数据；
决策可观测性：将每次改动与智能体自声明的预测进行配对，随后根据下一轮的任务级结果进行验证。

这三大支柱共同将每次改动转化为一份可证伪的契约（Falsifiable contract），从而使基准环境的演化能够自主进行，而不会陷入盲目的试错。

实证结果表明，经过 10 次 AHE 迭代后，模型在 Terminal-Bench 2 上的 pass@1 指标从 69.7% 提升至 77.0%，超越了人类设计的基准环境 Codex-CLI（71.9%）以及自我演化的基线模型 ACE 和 TF-GRPO。此外，固化后的基准环境无需重新演化即可进行迁移：

在 SWE-bench-verified 上，它取得了最高的综合成功率，且消耗的 Token 比初始版本（Seed）减少了 12%；
在 Terminal-Bench 2 上，它在三个不同的交替模型家族中带来了 +5.1 到 +10.1 个百分点的跨家族性能提升。这表明演化后的组件编码的是通用的工程经验，而非针对特定基准的微调。

消融实验表明，性能提升主要归功于工具、中间件和长期记忆的优化，而非系统提示词（System prompt）。这表明基准环境的事实性结构是可以迁移的，而散文级的提示词策略则无法迁移。

原文链接：arxiv.org