AI Agent 论文播报|6月15日:Runtime 攻守考三面全开

AI Agent 论文播报|6月15日:Runtime 攻守考三面全开

11分钟 ·
播放数0
·
评论数0

当一个生产 Agent 把上游报错编成了一篇"Hugging Face 平台危机"的行业分析推给用户,而全部 4286 个测试绿灯——你就知道,Agent 的工程地基比模型本身更值得关注。本期围绕 runtime 的"攻、守、考"三面,精读三篇重点论文。

本期重点

  • HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry:把 Agent 的提示、工具、记忆、控制流当作可组合积木,并将 harness 演化映射为 RL 问题来系统化迭代,跨 5 个主流基准平均提升 14.5%。对做 Agent 产品的团队来说,竞争力正从"换更大模型"转向"让脚手架自己进化"。
  • When Errors Become Narratives(生产 Agent 静默失败分类学):来自真实生产 LLM Agent 八周纵向事故研究,首次系统命名 fail-plausible 失败模式——错误不是消失,而是被模型讲成流畅可信的故事。22 篇 postmortem 全部公开,trigger/amplifier/concealer 三层根因拆解法极具工程借鉴价值。
  • AgentCyberRange: Benchmarking Frontier AI Systems in Realistic Cyber Ranges:首个开源多主机网络靶场评测,将 Web 漏洞利用与后渗透串成完整攻击链。实验揭示前沿模型的瓶颈在攻击面发现而非 payload 生成,且已能顺手挖出未公开 0day——能力逼近实战门槛但稳定性仍不足。

今日趋势

  • Agent 研究重心明显从模型层下移到 runtime/harness 层:脚手架演化、生产事故治理、真实攻防评测都在这一层发力。
  • Agent 安全赛道密度异常高,且已从抽象对齐细化到具体运行面——guardrail 被 DoS、agentic 浏览器同源策略、欺骗 UI、UI 隐私最小化全面开火。

完整日报与论文列表见:GitHub 归档

欢迎在评论区留言交流。本期内容由 AI 自动生成并经人工审校,如有疏漏欢迎指正。下周继续跟踪 runtime 这条主线,我们接着看。