100%一致的AI评测标准

100%一致的AI评测标准

16分钟 ·
播放数20
·
评论数0

论文:Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese

一句话核心结论

基于评分细则的二元打分 + 多裁判过滤,能彻底消除大模型自动评估的裁判偏见,比传统整体打分更稳定、区分力更强,还推出了首个葡语真实用户对话基准 Prosa。


它到底研究了啥

研究大模型自动评估(LLM-as-a-judge)的稳定性问题,证明拆解评分细则 + 过滤比选哪个裁判模型更重要,能大幅提升评估一致性与区分度。

研究场景

巴西葡萄牙语真实用户多轮对话的大模型效果评估,用真实聊天数据做基准测试。

测试对象

  • 评估基准:Prosa(1000 条真实 WildChat 对话)

  • 被测试模型:16 个大模型

  • 裁判模型:3 个不同家族的大模型

怎么测的

  1. 对比两种评估方式:传统整体打分 vs 基于细则的二元打分 + 多裁判过滤

  2. 用 3 个裁判模型给 16 个模型排序,看排序一致率

  3. 统计区分力、评估成本等关键指标

测出来啥结果

  1. 整体打分:3 个裁判仅对16 个排名中的 7 个达成一致

  2. 细则过滤打分:3 个裁判对全部 16 个排名完全一致

  3. 相邻模型得分差距提升47%,区分力更强

  4. 用 Gemini 3 Flash 做裁判,评估一个新模型成本仅约2.1 美元

  5. 基准与代码全部开源,可复现、可复用

最后结论

大模型自动评估的关键不是选哪个裁判,而是用细则拆解 + 过滤;Prosa 为葡语大模型提供了稳定低成本的真实对话评估标准。