同一个模型,换一层执行外壳(harness),安全分就从 0.30 跳到 0.37——今天三篇重点论文从安全、评测、数据三个方向切入,落点出奇一致:Agent 系统的真正瓶颈正在从模型层迁到外壳层、从单点输出迁到完整轨迹、从手工标注迁到规模化合成。
本期重点
- Agent Harness 安全审计(Auditing Agent Harness Safety):把安全评估的单位从"最终答案"换成"完整执行轨迹",提出三层审计框架——边界合规、执行保真、系统稳定。实验发现任务完成率与安全度竟然负相关,多 Agent 协作进一步放大风险,而换 harness 比换模型对安全的影响更大。
- 代码 Agent 链式版本升级评测(SWE-Chain):首次用真实 Python 包的连续 release 链(9 包、155 次版本切换)评测代码 Agent。Agent 上一步写的代码会原封不动带到下一步,错误累积无处可逃。最强配置也只解决约 60% 的升级行为;给 Agent 补上"不能动什么"的边界约束后,F1 从 13.9% 飙到 75.5%。
- 从视频合成 GUI 操作轨迹(Video2GUI):从 5 亿条 YouTube 视频元数据出发,自动蒸馏出 1270 万条带像素坐标的 GUI 交互轨迹、覆盖 1500+ 应用。预训练后 AndroidWorld 在线成功率接近翻倍(16.4%→31.9%),数据规模到 200B token 仍未饱和,预示 Computer-use Agent 进入数据驱动阶段。
今日趋势
- Harness 正被同时当作安全审计单元、搜索行为塑造者和性能变量——"换 harness 比换模型更关键"是今天最强信号。
- Agent 评测加速从"一次通过率"迁向链式、轨迹级、可执行环境的真实考核,单点分数越来越难骗过审计。
📎 当日论文归档:GitHub 日报
本期内容由 AI 自动生成,如有疏漏欢迎留言指正。我们明天见!
