告别繁琐 RLHF，DPO 直接让大模型听懂“人话”

大家好，欢迎收听播客「听懂 100 篇 AI 经典论文」

本期的内容探讨的是一篇关于直接偏好优化 (Direct Preference Optimization, DPO) 的论文，它提出了一种更简单、更稳定的方法来调整大型语言模型 (LLMs)，使其符合人类的偏好。

本期播客中你将听到 (Outline):

大型语言模型能力惊人，但如何精确控制它的行为，让它符合我们的偏好，是一个重要挑战。

传统的 RLHF (Reinforcement Learning from Human Feedback) 方法是如何工作的？它为什么复杂且不够稳定？ (需要先训练一个奖励模型，再用强化学习去优化语言模型)。

Direct Preference Optimization (DPO) 登场！它有什么创新之处？ (它直接优化语言模型，跳过了奖励模型训练和复杂的强化学习步骤)。

DPO 为什么能做到？它的核心在于发现了奖励模型和最优策略之间存在的直接数学关系。

DPO 如何实现？只需要一个简单的分类损失函数，就可以直接优化语言模型策略，拟合一个隐式的奖励模型。

DPO 相对于 RLHF 有哪些显著优势？更简单、稳定、计算量小。

实验证明：DPO 在控制文本情感、生成摘要和对话质量方面，效果媲美甚至超越了传统的 PPO-based RLHF 方法。甚至在某些任务上表现更棒。

探讨 DPO 的意义、潜在局限性和未来研究方向。

大型语言模型 (LLMs): 经过海量无监督文本数据训练的基础模型，具备广泛知识和能力。

人类偏好数据 (Human Preference Data): 人类对模型生成文本质量进行比较和排序的数据集。

AI 对齐 (Alignment): 确保 AI 系统的行为与人类的价值观、意图和偏好相符。

强化学习从人类反馈中学习 (RLHF): 当前常用的 AI 对齐技术，通过训练奖励模型和应用强化学习来优化语言模型。

奖励模型 (Reward Model): 一个预测模型生成文本符合人类偏好程度的评分模型。

策略 (Policy): 在 LLM 中指给定输入后，模型生成下一个词的概率分布，决定了模型的生成行为。

近端策略优化 (PPO - Proximal Policy Optimization): 一种常用的强化学习算法，在 RLHF 的第二阶段被广泛使用。

直接偏好优化 (DPO - Direct Preference Optimization): 本论文提出的新算法，通过一个简单的分类损失直接优化语言模型策略以对齐人类偏好。

Bradley-Terry 模型 / Plackett-Luce 模型: 描述人类偏好行为的理论模型，假设偏好概率与潜在的“奖励”或“价值”有关。

KL 散度约束 (KL-divergence Constraint): 在 RLHF 目标函数中加入的惩罚项，防止微调后的模型与原始模型差异过大。

隐式奖励模型 (Implicit Reward Model): DPO 优化过程中，虽然没有显式训练奖励模型，但优化的策略实际上对应了一个潜在的奖励函数。

封闭形式 (Closed Form): 指通过解析方法直接得到的数学解，无需迭代计算。

监督微调 (SFT - Supervised Fine-Tuning): 在 RLHF 流程初期，使用高质量示例对预训练模型进行的微调步骤。

论文名称：Direct Preference Optimization:Your Language Model is Secretly a Reward Model

原文链接：arxiv.org