100%一致的AI评测标准

听论文-懂大模型评测

16分钟 ·13天前

20

·

0

论文：Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese

一句话核心结论

用基于评分细则的二元打分 + 多裁判过滤，能彻底消除大模型自动评估的裁判偏见，比传统整体打分更稳定、区分力更强，还推出了首个葡语真实用户对话基准 Prosa。

它到底研究了啥

研究大模型自动评估（LLM-as-a-judge）的稳定性问题，证明拆解评分细则 + 过滤比选哪个裁判模型更重要，能大幅提升评估一致性与区分度。

研究场景

巴西葡萄牙语真实用户多轮对话的大模型效果评估，用真实聊天数据做基准测试。

测试对象

评估基准：Prosa（1000 条真实 WildChat 对话）
被测试模型：16 个大模型
裁判模型：3 个不同家族的大模型

怎么测的

对比两种评估方式：传统整体打分 vs 基于细则的二元打分 + 多裁判过滤
用 3 个裁判模型给 16 个模型排序，看排序一致率
统计区分力、评估成本等关键指标

测出来啥结果

整体打分：3 个裁判仅对16 个排名中的 7 个达成一致
细则过滤打分：3 个裁判对全部 16 个排名完全一致
相邻模型得分差距提升47%，区分力更强
用 Gemini 3 Flash 做裁判，评估一个新模型成本仅约2.1 美元
基准与代码全部开源，可复现、可复用

最后结论

大模型自动评估的关键不是选哪个裁判，而是用细则拆解 + 过滤；Prosa 为葡语大模型提供了稳定低成本的真实对话评估标准。

在小宇宙打开