Potemkin Understanding in Large Language Modelsreadthepapers

Potemkin Understanding in Large Language Models

8分钟 ·
播放数0
·
评论数0

本论文探讨了大型语言模型(LLMs)的“波将金式理解”现象,即模型在基准测试中表现出色,但其概念理解方式与人类存在根本差异。作者提出了一个正式框架来定义这种现象,并指出为人类设计的基准测试,只有在LLMs的错误理解模式与人类相似时才对LLMs有效。研究通过两种方法量化了波将金式理解的普遍性:一是构建了一个新的基准数据集,涵盖文学技巧、博弈论和心理偏见等领域,测试模型解释和应用概念的能力;二是设计了一个自动化评估程序,通过衡量模型自身回答的一致性来检测这种不理解。结果表明,所有测试的模型都普遍存在这种表面理解,即使它们能正确定义概念,也常在实际应用中失败,并且其内部概念表征存在不连贯性。

Source: <arxiv.org>