AI 打分其实是在掷骰子

When LLM Judge Scores Look Good but Best-of-N Decisions Fail

这篇论文核心是揭露一个 AI 领域的 “坑”：用大语言模型（LLM）当 “评委” 给 AI 生成的回答打分时，表面看评分结果不错，但实际用这些分数去选最优回答时，效果可能特别差。

简单说，现在大家都习惯用 “全局相关性”（比如相关系数 r）来判断 AI 评委好不好 —— 比如 r=0.47 就觉得还不错。但论文发现，这个 “全局分” 根本不靠谱，因为它主要反映的是 AI 评委和标准答案在 “整体趋势” 上的一致（比如都觉得某些话题的回答普遍质量高），而实际部署时，我们需要的是 AI 评委能在 “同一个问题的多个回答里” 挑出最好的那个，这得看 “单题内排序能力”。

论文做了个 5000 道题的实验：AI 评委的全局相关系数 r=0.47，但在同一道题里给多个回答排序的相关系数只有 0.27，而且 67% 的情况下会给不同回答打同分（也就是 “平局”）。结果就是，用这个 AI 评委选最优回答，只比随机乱选好 21%，远没达到理想效果。

为啥会这样？关键是两个问题：

评分太粗糙：AI 评委只给大概 20 个不同分数（比如 0-100 分但只取 5 分一档），很多质量接近的回答会被打同分，最后只能靠随机选；

全局分 “掺水”：全局相关性高，可能只是 AI 评委刚好摸清了哪些话题容易出好回答、哪些话题难，并不是真的能区分同一话题下的回答好坏。

论文也给了改进办法：

别只看全局分，要重点关注 “单题内排序相关系数”“平局率”“实际选对最优回答的概率” 这些指标；

让 AI 评委做 “二选一” 对比（比如直接问 “A 和 B 哪个好”），能大幅减少平局（从 59.8% 降到 3.9%），选对的效果也会明显提升（从 21.1% 提升到 61.2%）；

评估 AI 评委时，别掺进那些一眼就能看出好坏的 “简单题”，要专门用质量接近的 “难题” 来测试，这样才符合实际使用场景。

最后总结下来：用 AI 当评委时，别被漂亮的全局分数骗了。如果是要给同一问题的多个回答排序选最优，必须重点看它的 “单题内分辨能力”，不然可能还不如随机选。