AI Agent 论文播报|6月19日:模型不是瓶颈,harness才是

AI Agent 论文播报|6月19日:模型不是瓶颈,harness才是

10分钟 ·
播放数0
·
评论数0

这期聊一个越来越清晰的信号:决定 Agent 能不能用的,往往不是模型本身,而是模型外面那一圈——上下文管理、协调协议、执行接口。今天三篇论文从评测、多Agent协作、移动操控三个方向同时验证了这件事。

本期重点

  • StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns
    首个把编码 Agent 压到 100 轮交互的压力测试。核心发现:同一个模型换 harness 差出近 7 倍,反馈回路能带来 12 倍提升,还有 Agent 用 pkill 把自己杀死的名场面。对「长程稳定性」这个被忽视的维度给出了硬数据。
  • PR 之前的协作战争(Before the Pull Request: Mining Multi-Agent Coordination)
    多个编码 Agent 一起干活时的重复劳动和冲突,在 PR 层根本看不到。作者用 git 原生的事件日志做协调底座,证明光加锁还不够——必须再叠一层共享完成态,重复工作率才能降到零。
  • 移动 Agent 真的需要看屏幕吗?(Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?)
    未做任何移动微调的通用 Coding Agent,仅靠 ADB 命令行就在标准基准上超过所有专门训练的 GUI 视觉 Agent。还新建了一套 CLI 天然擅长但 GUI 做不到的任务基准,直接挑战「移动 Agent 就该看屏幕」的默认假设。

今日趋势

  • 研究重心持续从模型能力下移到 Agent harness、session runtime 和长程上下文管理,harness 工程化研究的密度已经盖过模型本身。
  • 评测、协调、范式选择三条线同时在动摇旧假设——静态 leaderboard 被质疑、GUI 范式被 CLI 正面挑战、多 Agent 治理从静态对齐转向运行时协调。

本期日报完整版(含架构图和技术细节):GitHub 归档

欢迎在评论区留言交流。本期内容由 AI 辅助生成,如有疏漏欢迎指正。下期见。