介绍了 “自动售货机基准测试(Vending-Bench)”—— 一个新型模拟环境,旨在评估大型语言模型(LLMs)在经营自动售货机业务时的长期连贯性。该基准测试通过让模型代理处理库存管理、定价、补货等任务,考察其在长期运营中的表现。结果显示,尽管克劳德 3.5 Sonnet(Claude 3.5 Sonnet)和 o3-mini 等部分先进模型能够实现盈利,但所有大型语言模型的表现均存在显著差异,且常因误解场景或陷入 “崩溃循环” 而失败。研究表明,这些问题并非主要源于内存限制,而是模型在持续、连贯的决策过程中存在困难。最终,自动售货机基准测试(Vending-Bench)旨在评估人工智能在有益应用与潜在风险两方面的关键能力,同时凸显了当前大型语言模型在长期保持稳定表现方面的局限性。

自动售货机基准测试(Vending-Bench):测试大型语言模型代理的连贯性与恢复力
12分钟 ·
1·
0