Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
Summary
测试基准环境(Harnesses)目前已成为决定编码智能体(Coding-agent)性能的核心因素,它介导了模型与工具及执行环境之间的交互方式。然而,“基准环境工程”(Harness engineering)目前仍停留在手工制作阶段,因为实现其自动化面临着诸多挑战:可编辑组件之间存在异构的动作空间、海量的运行轨迹(Trajectories)掩埋了具有操作价值的信号、以及改动所产生的效果难以归因。
为此,我们引入了智能体化基准环境工程(Agentic Harness Engineering,简称 AHE)。这是一个闭环系统,通过三个相匹配的可观测性支柱(Observability pillars)来解决上述挑战:
组件可观测性:为每个可编辑的基准环境组件提供文件级的表示,从而使动作空间显式化且可回滚;
体验可观测性:将数百万个原始轨迹 Token 提炼为一个分层的、可逐级下钻的证据语料库,使处于演化中的智能体能够实际消费(利用)这些数据;
决策可观测性:将每次改动与智能体自声明的预测进行配对,随后根据下一轮的任务级结果进行验证。
这三大支柱共同将每次改动转化为一份可证伪的契约(Falsifiable contract),从而使基准环境的演化能够自主进行,而不会陷入盲目的试错。
实证结果表明,经过 10 次 AHE 迭代后,模型在 Terminal-Bench 2 上的 pass@1 指标从 69.7% 提升至 77.0%,超越了人类设计的基准环境 Codex-CLI(71.9%)以及自我演化的基线模型 ACE 和 TF-GRPO。此外,固化后的基准环境无需重新演化即可进行迁移:
在 SWE-bench-verified 上,它取得了最高的综合成功率,且消耗的 Token 比初始版本(Seed)减少了 12%;
在 Terminal-Bench 2 上,它在三个不同的交替模型家族中带来了 +5.1 到 +10.1 个百分点的跨家族性能提升。这表明演化后的组件编码的是通用的工程经验,而非针对特定基准的微调。
消融实验表明,性能提升主要归功于工具、中间件和长期记忆的优化,而非系统提示词(System prompt)。这表明基准环境的事实性结构是可以迁移的,而散文级的提示词策略则无法迁移。
原文链接:arxiv.org

