EP2: Vending-Bench 基于现实场景的 AI 评测

Vending-Bench 是一个模拟评测环境，让 AI 扮演自动售货机运营者。系统会授予大模型一定额度的初始资金，大模型的目标是尽可能多的盈利并且维持售货机长期运营。这需要模型自动处理库存管理、订货、商品定价、成本核算等任务。模型会被赋予多种工具（如发送电子邮件联系供货商、进行网页搜索查询信息、执行计算等），整个模拟可以持续上百个仿真日，单次运行的交互上下文长度可能超过 2000 万 tokens —— 远超一般模型上下文窗口。从技术角度看，这项评测涵盖了任务建模、工具调用、网页操作和数学计算等多种能力要求，而且长期执行任务会极大考验模型持续、一致地推理和决策的能力。

Vending-Bench 通过多次独立运行来评估模型的表现和稳定性。每个模型通常运行 5 次仿真，以计算平均表现和波动。评估指标侧重于业务结果和持续性，包括最终累积的净资产收益、售出的商品总数，以及在仿真中维持运营的天数。这些指标全面反映模型既要赚钱又要不出严重差错的能力。通过这种长周期、多指标的评测，Vending-Bench 能够揭示模型在长期连续决策情境下的稳定性和弱点。

---

材料整理：王三十九
播报：豆包 AI