本期聚焦 Agent 从「demo」走向「工程系统」的三个关键切面:多 Agent 并发可靠性、computer-use 执行缓存、记忆系统的训练化。三篇论文放在一起看,勾勒出一个共同趋势——把过去模糊的「能力」拆成可验证、可归因、可缓存的工程组件。
本期重点
- 多Agent系统并发异常的形式化检测与防御(Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems)——首次把数据库隔离级别搬到多 Agent LLM 系统,用 TLA+ 和 Verus 机器验证了 4 种并发异常和 L0–L4 五级一致性层级,并在字节 deer-flow 和 LangGraph 里复现了真实 bug。对做 Agent 平台的人来说,这是第一次能说「我们的一致性级别是 L2」。
- 重复任务越做越快的计算机使用 Agent(PreAct: Computer-Using Agents that Get Faster on Repeated Tasks)——把首次成功轨迹编译成带屏幕校验的状态机程序,重放时完全不调用 LLM,速度提升 8–13 倍。核心亮点是「存储前再验证一次」机制,保证程序库越用越好而非越用越脏,对任何做 Agent 长期记忆的产品都有借鉴价值。
- 通过在策略蒸馏培育全面的 Agent 进化器(OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation)——不只是又一个记忆库,而是把「选记忆、用记忆、写记忆、管记忆」四件事统一训练。用结果校准的记忆归因把任务成败变成每条记忆的价值标签,9B 模型在多个 benchmark 上挑战 397B 巨头,消融里去掉归因平均掉 6.5 个点。
今日趋势
- 411 篇论文中 general agent 占半壁江山,研究重心明确从「更强模型」下移到 runtime、harness 和长期记忆机制——Agent 正在进入「软件工程化」阶段。
- 评测与安全方向(合计 54 篇)开始拒绝把 model/harness/environment 捆在一起打分,转向轨迹级、组件级诊断,benchmark 设计范式正在被重塑。
完整日报与论文列表见:GitHub 归档
欢迎在评论区留言交流你对 Agent 工程化的看法。本期内容由 AI 自动生成并经人工审校,如有疏漏欢迎指正。我们下期见 👋
