论文:Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese
一句话核心结论
用基于评分细则的二元打分 + 多裁判过滤,能彻底消除大模型自动评估的裁判偏见,比传统整体打分更稳定、区分力更强,还推出了首个葡语真实用户对话基准 Prosa。
它到底研究了啥
研究大模型自动评估(LLM-as-a-judge)的稳定性问题,证明拆解评分细则 + 过滤比选哪个裁判模型更重要,能大幅提升评估一致性与区分度。
研究场景
巴西葡萄牙语真实用户多轮对话的大模型效果评估,用真实聊天数据做基准测试。
测试对象
评估基准:Prosa(1000 条真实 WildChat 对话)
被测试模型:16 个大模型
裁判模型:3 个不同家族的大模型
怎么测的
对比两种评估方式:传统整体打分 vs 基于细则的二元打分 + 多裁判过滤
用 3 个裁判模型给 16 个模型排序,看排序一致率
统计区分力、评估成本等关键指标
测出来啥结果
整体打分:3 个裁判仅对16 个排名中的 7 个达成一致
细则过滤打分:3 个裁判对全部 16 个排名完全一致
相邻模型得分差距提升47%,区分力更强
用 Gemini 3 Flash 做裁判,评估一个新模型成本仅约2.1 美元
基准与代码全部开源,可复现、可复用
最后结论
大模型自动评估的关键不是选哪个裁判,而是用细则拆解 + 过滤;Prosa 为葡语大模型提供了稳定低成本的真实对话评估标准。
