EP33|别再只看跑分了,AI 要进现实世界考试信号转译

EP33|别再只看跑分了,AI 要进现实世界考试

11分钟 ·
播放数2
·
评论数0

如果 AI agent 未来真的要替我们经营流程、处理客户、花钱、下单、退款,那我们还只看模型排行榜,够吗?

这一期我们从 Andon Labs 的真实世界评测聊起:他们不只是让模型答题,而是让 agent 经营自动售货机、实体店、和真实人类互动。结果暴露出来的,不只是模型聪不聪明,而是它在长周期、金钱压力、上下文膨胀、多 agent 协作和现实噪音里,会不会可靠。

本期会聊到:

00:04 为什么“benchmark 分数高”不等于 agent 可以直接上线;

00:43 Andon Labs 为什么从一台自动售货机开始测试长期 agent;

01:27 money-based eval 为什么比百分制排行榜更难饱和;

02:14 Claude 把每天 2 美元费用当成 cyber crime 的荒诞案例,真正说明了什么;

03:12 长上下文、反复失败和无法退出任务,如何把 agent 推进崩溃循环;

04:08 从模拟到真实:为什么人类才是最难预测的 out-of-distribution;

04:54 multi-agent 不是魔法:AI CEO、主 agent、专职 agent 如何制造新的协调问题;

05:52 竞争环境里的撒谎、退款拖延和价格联盟:为什么这不是猎奇,而是上线前必须测的风险;

06:43 eval awareness:当模型意识到自己在考试,它还会不会像真实场景那样行动;

07:34 空间、机器人、实体店和腐烂番茄:现实世界为什么比试卷脏得多;

08:29 国内团队做 agent 产品时,应该怎样重新定义“验收”;

09:10 为什么每个认真做 AI 的团队,都需要自己的 private eval;

09:55 最后的判断:真正的 final eval,是把 agent 放进现实世界的小事里,看它有没有把小事变成事故。

核心判断:

下一阶段的 AI 产品竞争,不只是接入最新模型,而是谁更早建立真实、长期、可追踪的评测系统。

来源说明:本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-04 发布的 Andon Labs 创始人 Lukas Petersson、Axel Backlund 访谈:Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs(www.latent.space)。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。