《AI深度漫谈》E09:Agentic-RL
播客简介
欢迎回到《AI深度漫谈》第九期!本期是系列技术难度最高的一期,面向有深度学习基础的听众,讲解从SFT到GRPO的训练实战。
如果你想深入理解智能体背后的训练原理,掌握如何通过强化学习让智能体变得更聪明,本期内容将为你打开一扇新的大门。
本期内容大纲
第一章:开场——为什么需要训练
提示工程的局限:
无法根本改变模型能力
复杂任务表现受限
训练的价值:
注入领域知识
优化特定能力
对齐人类偏好
第二章:监督微调(SFT)
SFT原理:在标注数据上继续训练
数据准备:
高质量指令-响应对
数据清洗和筛选
数据增强技巧
训练流程:
学习率设置
训练轮数控制
过拟合防范
第三章:奖励模型
为什么需要奖励模型:量化输出质量
奖励模型训练:
偏好数据收集
排序损失函数
模型架构设计
奖励模型评估:与人类偏好的一致性
第四章:RLHF流程——PPO
RLHF(基于人类反馈的强化学习)概述
PPO(近端策略优化)算法:
策略网络和价值网络
优势函数计算
clipped surrogate objective
RLHF训练流程:
收集人类偏好数据
训练奖励模型
使用PPO优化策略
第五章:Agentic RL的独特性
传统RLHF vs Agentic RL:
传统:关注单轮输出质量
Agentic:关注多轮任务完成度
Agentic RL的挑战:
长程依赖
稀疏奖励
探索与利用平衡
第六章:GRPO详解
GRPO(Group Relative Policy Optimization):
群体相对策略优化
无需价值网络
更适合智能体场景
GRPO优势:
降低内存需求
简化训练流程
更好的稳定性
GRPO实现要点
第七章:训练数据构建
数据类型:
指令跟随数据
工具使用数据
多轮对话数据
数据质量控制:
多样性保证
难度分布
错误样本处理
第八章:训练流程实战
环境准备:
硬件要求
框架选择(TRL、LLaMA-Factory等)
训练配置:
超参数设置
分布式训练
监控和调试:
损失曲线分析
评估指标跟踪
第九章:训练挑战
常见问题和解决方案:
灾难性遗忘
奖励黑客
训练不稳定
调试技巧
第十章:训练 vs 提示工程选择
选择框架:
| 场景 | 提示工程 | 训练 |
|------|---------|------|
| 快速验证 | ✓ | ✗ |
| 通用能力提升 | ✗ | ✓ |
| 资源有限 | ✓ | ✗ |混合策略:提示工程 + 轻量级微调
适合人群
有深度学习基础的开发者
希望深入理解智能体训练原理的技术人员
想进行模型微调的研究者
你将收获
理解SFT、RLHF、GRPO等训练方法
掌握训练数据构建的方法
了解训练流程和调试技巧
学会在提示工程和训练之间做选择
关键词
SFT、监督微调、RLHF、PPO、GRPO、奖励模型、强化学习、Agentic RL、训练数据、灾难性遗忘、奖励黑客
学习建议
本期技术难度较高,建议先掌握深度学习基础
动手实践时从小规模模型开始
关注DeepSeek-R1等开源项目的训练方法

