When LLM Judge Scores Look Good but Best-of-N Decisions Fail
这篇论文核心是揭露一个 AI 领域的 “坑”:用大语言模型(LLM)当 “评委” 给 AI 生成的回答打分时,表面看评分结果不错,但实际用这些分数去选最优回答时,效果可能特别差。
简单说,现在大家都习惯用 “全局相关性”(比如相关系数 r)来判断 AI 评委好不好 —— 比如 r=0.47 就觉得还不错。但论文发现,这个 “全局分” 根本不靠谱,因为它主要反映的是 AI 评委和标准答案在 “整体趋势” 上的一致(比如都觉得某些话题的回答普遍质量高),而实际部署时,我们需要的是 AI 评委能在 “同一个问题的多个回答里” 挑出最好的那个,这得看 “单题内排序能力”。
论文做了个 5000 道题的实验:AI 评委的全局相关系数 r=0.47,但在同一道题里给多个回答排序的相关系数只有 0.27,而且 67% 的情况下会给不同回答打同分(也就是 “平局”)。结果就是,用这个 AI 评委选最优回答,只比随机乱选好 21%,远没达到理想效果。
为啥会这样?关键是两个问题:
评分太粗糙:AI 评委只给大概 20 个不同分数(比如 0-100 分但只取 5 分一档),很多质量接近的回答会被打同分,最后只能靠随机选;
全局分 “掺水”:全局相关性高,可能只是 AI 评委刚好摸清了哪些话题容易出好回答、哪些话题难,并不是真的能区分同一话题下的回答好坏。
论文也给了改进办法:
别只看全局分,要重点关注 “单题内排序相关系数”“平局率”“实际选对最优回答的概率” 这些指标;
让 AI 评委做 “二选一” 对比(比如直接问 “A 和 B 哪个好”),能大幅减少平局(从 59.8% 降到 3.9%),选对的效果也会明显提升(从 21.1% 提升到 61.2%);
评估 AI 评委时,别掺进那些一眼就能看出好坏的 “简单题”,要专门用质量接近的 “难题” 来测试,这样才符合实际使用场景。
最后总结下来:用 AI 当评委时,别被漂亮的全局分数骗了。如果是要给同一问题的多个回答排序选最优,必须重点看它的 “单题内分辨能力”,不然可能还不如随机选。
