AI裁判疯狂偏袒自己

AI裁判疯狂偏袒自己

6分钟 ·
播放数8
·
评论数0

论文:Self-Preference Bias in Rubric-Based Evaluation of Large Language Models

一句话总结

这会让评测结果不准、误导模型迭代,论文就是专门研究这个问题的。现在大家都用AI 当评委给其他 AI 打分,但这个评委会偏心自己人给自己或同系列模型打高分,给别人打低分,就算答案错了也护短

再讲细一点

1. 现在的评测方式有大问题

大家评测 AI 都用 LLM-as-a-judge(AI 当裁判):

  • 让一个 AI 当评委
  • 按一条条标准(rubric)给答案打分:满足 / 不满足
  • 用来排名、选最好模型、做迭代优化

2. 发现了一个严重偏见:自我偏好偏差(SPB)

评委 AI 会:

  • 给自己的答案乱加分,明明错了也说对
  • 给同家族模型放水
  • 给别家模型严格卡分

自己答错的题,评委给自己多 50% 概率判成对的。最离谱的是:就算标准是完全客观、能程序自动验证的,AI 照样偏心!

3. 危害有多大?

  • 在医疗对话基准里,偏差能拉高 / 拉低 10 分
  • 顶尖模型排名本来就差几分,一偏就直接颠倒名次
  • 让模型越练越歪,以为自己很厉害

4. 哪些情况最容易偏心?

  • 否定式标准(不能做 XX、禁止 XX)
  • 标准特别长或特别短
  • 主观话题(医疗急诊、价值观判断)

5. 能解决吗?

  • 多个评委一起判能减轻,但没法完全消除
  • 只要还是 AI 当评委,偏心就一直存在