该论文介绍了一种名为 RLCR（强化学习与校准奖励） 的新方法，旨在通过结合标准正确性奖励和基于 Brier 分数的校准奖励来训练大型语言模型。文章指出，传统的二元奖励函数虽然能提高准确性，但往往导致模型过度自信并增加“幻觉”率。RLCR 的目标是同时提高模型的 准确性 和 校准置信度估计，使其不仅能给出正确答案，还能准确地表达其不确定性。实验结果表明，RLCR 在保持甚至提升准确性的同时，显著改善了模型的校准性能，尤其是在域外泛化方面。此外，文章还探讨了 言语化置信度 在测试时缩放方法中的应用，以及推理过程如何有助于校准。
Source: <https://www.arxiv.org/abs/2507.16806>

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

edwardlol

jameszhou2108@hotmail.com

借助 NotebookLM 将精选的热门论文或个人感兴趣的学术内容转化为中文播客，帮助更多人轻松获取前沿知识。

AI_SUMMARIZE_EPISODE

readthepapers

Beyond Binary Rewards

68355bd9988e11fcbd89349e/lmCqO8VYevqAkEvrjABVP9QAccmV.m4a