论文:Self-Preference Bias in Rubric-Based Evaluation of Large Language Models
一句话总结
这会让评测结果不准、误导模型迭代,论文就是专门研究这个问题的。现在大家都用AI 当评委给其他 AI 打分,但这个评委会偏心自己人:给自己或同系列模型打高分,给别人打低分,就算答案错了也护短。
再讲细一点
1. 现在的评测方式有大问题
大家评测 AI 都用 LLM-as-a-judge(AI 当裁判):
- 让一个 AI 当评委
- 按一条条标准(rubric)给答案打分:满足 / 不满足
- 用来排名、选最好模型、做迭代优化
2. 发现了一个严重偏见:自我偏好偏差(SPB)
评委 AI 会:
- 给自己的答案乱加分,明明错了也说对
- 给同家族模型放水
- 给别家模型严格卡分
自己答错的题,评委给自己多 50% 概率判成对的。最离谱的是:就算标准是完全客观、能程序自动验证的,AI 照样偏心!
3. 危害有多大?
- 在医疗对话基准里,偏差能拉高 / 拉低 10 分
- 顶尖模型排名本来就差几分,一偏就直接颠倒名次
- 让模型越练越歪,以为自己很厉害
4. 哪些情况最容易偏心?
- 否定式标准(不能做 XX、禁止 XX)
- 标准特别长或特别短
- 主观话题(医疗急诊、价值观判断)
5. 能解决吗?
- 用多个评委一起判能减轻,但没法完全消除
- 只要还是 AI 当评委,偏心就一直存在
