AI Agent 论文播报｜Harness 决定 Agent 上限，不是模型（2026-05-15） - 周六9点半

同一个模型，换一层执行外壳（harness），安全分就从 0.30 跳到 0.37——今天三篇重点论文从安全、评测、数据三个方向切入，落点出奇一致：Agent 系统的真正瓶颈正在从模型层迁到外壳层、从单点输出迁到完整轨迹、从手工标注迁到规模化合成。

本期重点

Agent Harness 安全审计（Auditing Agent Harness Safety）：把安全评估的单位从"最终答案"换成"完整执行轨迹"，提出三层审计框架——边界合规、执行保真、系统稳定。实验发现任务完成率与安全度竟然负相关，多 Agent 协作进一步放大风险，而换 harness 比换模型对安全的影响更大。
代码 Agent 链式版本升级评测（SWE-Chain）：首次用真实 Python 包的连续 release 链（9 包、155 次版本切换）评测代码 Agent。Agent 上一步写的代码会原封不动带到下一步，错误累积无处可逃。最强配置也只解决约 60% 的升级行为；给 Agent 补上"不能动什么"的边界约束后，F1 从 13.9% 飙到 75.5%。
从视频合成 GUI 操作轨迹（Video2GUI）：从 5 亿条 YouTube 视频元数据出发，自动蒸馏出 1270 万条带像素坐标的 GUI 交互轨迹、覆盖 1500+ 应用。预训练后 AndroidWorld 在线成功率接近翻倍（16.4%→31.9%），数据规模到 200B token 仍未饱和，预示 Computer-use Agent 进入数据驱动阶段。

今日趋势

📎 当日论文归档：GitHub 日报

本期内容由 AI 自动生成，如有疏漏欢迎留言指正。我们明天见！