【第509期】GDPO：多奖励强化学习的解耦归一化策略优化

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Summary

随着语言模型能力的不断提升，用户不仅期望其提供准确的回答，还希望其行为能够在多种场景下符合多样化的人类偏好。为实现这一目标，强化学习（RL）流程开始引入多个奖励信号，每个奖励分别刻画一种不同的偏好，以引导模型朝着期望行为优化。然而，近期研究在多奖励设定下默认采用 Group Relative Policy Optimization（GRPO），却未对其适用性进行充分检验。

本文表明，直接在多奖励场景中应用 GRPO，对不同 rollout 奖励组合进行归一化时，会导致这些组合坍缩为相同的优势值（advantage value），从而降低训练信号的分辨率，导致次优收敛，甚至在某些情况下出现训练早期失败。

为解决上述问题，我们提出了 Group reward-Decoupled Normalization Policy Optimization（GDPO），一种新的策略优化方法。该方法通过对各个奖励的归一化过程进行解耦，更真实地保留奖励之间的相对差异，从而实现更精确的多奖励优化，并显著提升训练稳定性。

我们在三个任务上对 GDPO 与 GRPO 进行了对比实验：工具调用、数学推理和代码推理。评估指标既包括正确性指标（如准确率、错误率），也包括约束遵循指标（如格式规范、长度控制）。在所有实验设置下，GDPO 均稳定优于 GRPO，验证了其在多奖励强化学习优化中的有效性与良好的泛化能力。

原文链接：arxiv.org