AI Agent 论文播报｜6月19日：模型不是瓶颈，harness才是 - 周六9点半

这期聊一个越来越清晰的信号：决定 Agent 能不能用的，往往不是模型本身，而是模型外面那一圈——上下文管理、协调协议、执行接口。今天三篇论文从评测、多Agent协作、移动操控三个方向同时验证了这件事。

本期重点

StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns
首个把编码 Agent 压到 100 轮交互的压力测试。核心发现：同一个模型换 harness 差出近 7 倍，反馈回路能带来 12 倍提升，还有 Agent 用 pkill 把自己杀死的名场面。对「长程稳定性」这个被忽视的维度给出了硬数据。
PR 之前的协作战争（Before the Pull Request: Mining Multi-Agent Coordination）
多个编码 Agent 一起干活时的重复劳动和冲突，在 PR 层根本看不到。作者用 git 原生的事件日志做协调底座，证明光加锁还不够——必须再叠一层共享完成态，重复工作率才能降到零。
移动 Agent 真的需要看屏幕吗？（Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?）
未做任何移动微调的通用 Coding Agent，仅靠 ADB 命令行就在标准基准上超过所有专门训练的 GUI 视觉 Agent。还新建了一套 CLI 天然擅长但 GUI 做不到的任务基准，直接挑战「移动 Agent 就该看屏幕」的默认假设。

今日趋势

研究重心持续从模型能力下移到 Agent harness、session runtime 和长程上下文管理，harness 工程化研究的密度已经盖过模型本身。
评测、协调、范式选择三条线同时在动摇旧假设——静态 leaderboard 被质疑、GUI 范式被 CLI 正面挑战、多 Agent 治理从静态对齐转向运行时协调。

本期日报完整版（含架构图和技术细节）：GitHub 归档

欢迎在评论区留言交流。本期内容由 AI 辅助生成，如有疏漏欢迎指正。下期见。