AI Agent 论文播报｜0512：1MB脚本戳穿评测假象，Agent正在补基础设施债 - 周六9点半

一个不看屏幕的1MB小脚本，在主流Agent评测榜单上打败了前沿大模型——这不是行为艺术，而是整个Agent评测体系被戳穿的起点。本期聚焦三篇论文，拼出一幅清晰的图景：研究社区正集体从"造更强Agent"转向"让Agent的分数和运行时真正可信"。

🎧 本期重点

Computer Use at the Edge of the Statistical Precipice
Meta超级智能实验室的工作。用盲重放脚本证明：在静态环境下，pass@k测的是记忆而非能力。论文提出PRISM五条环境设计原则和DigiWorld基准（320万+可验证配置），同一脚本成功率从71%崩到6.9%。还用分层Bootstrap把名义95%覆盖率从17%拉回到真正的95%。做CUA评测的人必读。
Continual Harness: Online Adaptation for Self-Improving Foundation Agents
普林斯顿与Google DeepMind合作。让Agent在不重置环境的前提下，边玩宝可梦边自动改写自己的提示、子代理、技能和记忆。最有意思的反结果：弱模型用这套自我精修反而比最简方案更差——存在"能力地板"，别指望小模型靠花哨框架翻身。
Can Agent Benchmarks Support Their Scores?
审计AndroidWorld、AgentDojo、AppWorld、τ3-bench retail、MiniWoB五大Agent评测。把每条运行打成Pass/Fail/Unknown三态，用上下界区间替代单点成功率。AgentDojo上Claude原生93%的分数，证据视角下变成71%~92%的区间，三模型排序全部不可识别。朋友圈里的Agent榜单排名，可能很多对其实是统计噪声。

📊 今日趋势

如果你正好在做Agent产品，可以问自己三个问题：环境是不是每次都从同一个状态开始？分数旁边有没有置信区间？运行日志能不能反演出任务到底完成没有？三个问题里有一个答案是"否"，本期三篇论文都值得认真读一下。

本期内容由 AI 自动生成，欢迎在评论区留言交流、指正。