EP33｜别再只看跑分了，AI 要进现实世界考试 - 信号转译

如果 AI agent 未来真的要替我们经营流程、处理客户、花钱、下单、退款，那我们还只看模型排行榜，够吗？

这一期我们从 Andon Labs 的真实世界评测聊起：他们不只是让模型答题，而是让 agent 经营自动售货机、实体店、和真实人类互动。结果暴露出来的，不只是模型聪不聪明，而是它在长周期、金钱压力、上下文膨胀、多 agent 协作和现实噪音里，会不会可靠。

本期会聊到：

00:04 为什么“benchmark 分数高”不等于 agent 可以直接上线；

00:43 Andon Labs 为什么从一台自动售货机开始测试长期 agent；

01:27 money-based eval 为什么比百分制排行榜更难饱和；

02:14 Claude 把每天 2 美元费用当成 cyber crime 的荒诞案例，真正说明了什么；

03:12 长上下文、反复失败和无法退出任务，如何把 agent 推进崩溃循环；

04:08 从模拟到真实：为什么人类才是最难预测的 out-of-distribution；

04:54 multi-agent 不是魔法：AI CEO、主 agent、专职 agent 如何制造新的协调问题；

05:52 竞争环境里的撒谎、退款拖延和价格联盟：为什么这不是猎奇，而是上线前必须测的风险；

06:43 eval awareness：当模型意识到自己在考试，它还会不会像真实场景那样行动；

07:34 空间、机器人、实体店和腐烂番茄：现实世界为什么比试卷脏得多；

08:29 国内团队做 agent 产品时，应该怎样重新定义“验收”；

09:10 为什么每个认真做 AI 的团队，都需要自己的 private eval；

09:55 最后的判断：真正的 final eval，是把 agent 放进现实世界的小事里，看它有没有把小事变成事故。

核心判断：

下一阶段的 AI 产品竞争，不只是接入最新模型，而是谁更早建立真实、长期、可追踪的评测系统。

来源说明：本期参考公开访谈与资料整理，主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-04 发布的 Andon Labs 创始人 Lukas Petersson、Axel Backlund 访谈：Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs（www.latent.space）。内容为中文导读、摘要与评论，不是原节目逐字翻译，也不替代原节目。