AI Agent 论文播报 1117：评测、运行时、记忆三连解耦

这期我们顺着一个反常数字切入：同一个 Claude Opus 4.6，换不同 Agent 脚手架，TerminalBench 成功率能从 58% 飙到近 80%。今天的三篇重点论文从评测、运行时、长期记忆三个方向同时指向同一个关键词——解耦。

本期重点

编码 Agent 评测的根本错位（Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering）：直接挑战 SWE-Bench 这套主流评测，指出 model/harness/environment 被打包成一个分数，并提出 NS2 这种组件级、verifier-of-verifier 的评测框架。
多 Agent 并发异常的形式化检测与防御（Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent LLM Systems）：把数据库隔离级别搬到 Agent 共享状态，定义 4 类并发异常和 L0–L4 五级一致性层级，用 TLA+/Verus 写了 274 条机器证明，并复现了 deer-flow 与 LangGraph 的真实并发 bug。
会越用越快的 Computer-Use Agent（PreAct: Computer-Using Agents that Get Faster on Repeated Tasks）：把首次成功的轨迹编译成带屏幕校验的状态机程序，重放时不再调用 LLM，速度提升 8.5–13 倍；通过 verify-before-store 防止"跑得通但没干成"的伪成功污染程序库。

今日趋势

如果你只想带一句话出门：单一 pass rate 已经不足以指导 Agent 改进，下一步竞争在组件级评测和可验证 runtime 这两条新坐标轴上。欢迎在评论区聊聊你手上的 Agent 系统卡在哪一层。本期内容由 AI 自动生成，如有疏漏欢迎指正。