Beyond Binary Rewardsreadthepapers

Beyond Binary Rewards

7分钟 ·
播放数0
·
评论数0

该论文介绍了一种名为 RLCR(强化学习与校准奖励) 的新方法,旨在通过结合标准正确性奖励和基于 Brier 分数的校准奖励来训练大型语言模型。文章指出,传统的二元奖励函数虽然能提高准确性,但往往导致模型过度自信并增加“幻觉”率。RLCR 的目标是同时提高模型的 准确性校准置信度估计,使其不仅能给出正确答案,还能准确地表达其不确定性。实验结果表明,RLCR 在保持甚至提升准确性的同时,显著改善了模型的校准性能,尤其是在域外泛化方面。此外,文章还探讨了 言语化置信度 在测试时缩放方法中的应用,以及推理过程如何有助于校准。

Source: <www.arxiv.org>