S03E09-Agentic-RL

智能共生：MIT前沿AI课笔记

10分钟 ·3个月前

37

·

0

《AI深度漫谈》E09：Agentic-RL

播客简介

欢迎回到《AI深度漫谈》第九期！本期是系列技术难度最高的一期，面向有深度学习基础的听众，讲解从SFT到GRPO的训练实战。

如果你想深入理解智能体背后的训练原理，掌握如何通过强化学习让智能体变得更聪明，本期内容将为你打开一扇新的大门。

本期内容大纲

第一章：开场——为什么需要训练

提示工程的局限：
- 无法根本改变模型能力
- 复杂任务表现受限
训练的价值：
- 注入领域知识
- 优化特定能力
- 对齐人类偏好

第二章：监督微调（SFT）

SFT原理：在标注数据上继续训练
数据准备：
- 高质量指令-响应对
- 数据清洗和筛选
- 数据增强技巧
训练流程：
- 学习率设置
- 训练轮数控制
- 过拟合防范

第三章：奖励模型

为什么需要奖励模型：量化输出质量
奖励模型训练：
- 偏好数据收集
- 排序损失函数
- 模型架构设计
奖励模型评估：与人类偏好的一致性

第四章：RLHF流程——PPO

RLHF（基于人类反馈的强化学习）概述
PPO（近端策略优化）算法：
- 策略网络和价值网络
- 优势函数计算
- clipped surrogate objective
RLHF训练流程：
1. 收集人类偏好数据
2. 训练奖励模型
3. 使用PPO优化策略

第五章：Agentic RL的独特性

传统RLHF vs Agentic RL：
- 传统：关注单轮输出质量
- Agentic：关注多轮任务完成度
Agentic RL的挑战：
- 长程依赖
- 稀疏奖励
- 探索与利用平衡

第六章：GRPO详解

GRPO（Group Relative Policy Optimization）：
- 群体相对策略优化
- 无需价值网络
- 更适合智能体场景
GRPO优势：
- 降低内存需求
- 简化训练流程
- 更好的稳定性
GRPO实现要点

第七章：训练数据构建

数据类型：
- 指令跟随数据
- 工具使用数据
- 多轮对话数据
数据质量控制：
- 多样性保证
- 难度分布
- 错误样本处理

第八章：训练流程实战

环境准备：
- 硬件要求
- 框架选择（TRL、LLaMA-Factory等）
训练配置：
- 超参数设置
- 分布式训练
监控和调试：
- 损失曲线分析
- 评估指标跟踪

第九章：训练挑战

常见问题和解决方案：
- 灾难性遗忘
- 奖励黑客
- 训练不稳定
调试技巧

第十章：训练 vs 提示工程选择

选择框架：
| 场景 | 提示工程 | 训练 |
|------|---------|------|
| 快速验证 | ✓ | ✗ |
| 通用能力提升 | ✗ | ✓ |
| 资源有限 | ✓ | ✗ |
混合策略：提示工程 + 轻量级微调

适合人群

有深度学习基础的开发者
希望深入理解智能体训练原理的技术人员
想进行模型微调的研究者

你将收获

理解SFT、RLHF、GRPO等训练方法
掌握训练数据构建的方法
了解训练流程和调试技巧
学会在提示工程和训练之间做选择

关键词

SFT、监督微调、RLHF、PPO、GRPO、奖励模型、强化学习、Agentic RL、训练数据、灾难性遗忘、奖励黑客

学习建议

本期技术难度较高，建议先掌握深度学习基础
动手实践时从小规模模型开始
关注DeepSeek-R1等开源项目的训练方法

在小宇宙打开