Vending-Bench 是一个模拟评测环境,让 AI 扮演自动售货机运营者。系统会授予大模型一定额度的初始资金,大模型的目标是尽可能多的盈利并且维持售货机长期运营。这需要模型自动处理库存管理、订货、商品定价、成本核算等任务。模型会被赋予多种工具(如发送电子邮件联系供货商、进行网页搜索查询信息、执行计算等),整个模拟可以持续上百个仿真日,单次运行的交互上下文长度可能超过 2000 万 tokens —— 远超一般模型上下文窗口。从技术角度看,这项评测涵盖了任务建模、工具调用、网页操作和数学计算等多种能力要求,而且长期执行任务会极大考验模型持续、一致地推理和决策的能力。
Vending-Bench 通过多次独立运行来评估模型的表现和稳定性。每个模型通常运行 5 次仿真,以计算平均表现和波动。评估指标侧重于业务结果和持续性,包括最终累积的净资产收益、售出的商品总数,以及在仿真中维持运营的天数。这些指标全面反映模型既要赚钱又要不出严重差错的能力。通过这种长周期、多指标的评测,Vending-Bench 能够揭示模型在长期连续决策情境下的稳定性和弱点。
---
材料整理:王三十九
播报:豆包 AI
