介绍了 “自动售货机基准测试（Vending-Bench）”—— 一个新型模拟环境，旨在评估大型语言模型（LLMs）在经营自动售货机业务时的长期连贯性。该基准测试通过让模型代理处理库存管理、定价、补货等任务，考察其在长期运营中的表现。结果显示，尽管克劳德 3.5 Sonnet（Claude 3.5 Sonnet）和 o3-mini 等部分先进模型能够实现盈利，但所有大型语言模型的表现均存在显著差异，且常因误解场景或陷入 “崩溃循环” 而失败。研究表明，这些问题并非主要源于内存限制，而是模型在持续、连贯的决策过程中存在困难。最终，自动售货机基准测试（Vending-Bench）旨在评估人工智能在有益应用与潜在风险两方面的关键能力，同时凸显了当前大型语言模型在长期保持稳定表现方面的局限性。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

吉姆的学习笔记

自动售货机基准测试（Vending-Bench）：测试大型语言模型代理的连贯性与恢复力

6812192bad46c29a2317fecc/lk6rqFzyhb_IDMGosLdJysiJlbAz.m4a