S03E09-Agentic-RL智能共生:MIT前沿AI课笔记

S03E09-Agentic-RL

10分钟 ·
播放数35
·
评论数0

《AI深度漫谈》E09:Agentic-RL

播客简介

欢迎回到《AI深度漫谈》第九期!本期是系列技术难度最高的一期,面向有深度学习基础的听众,讲解从SFT到GRPO的训练实战。

如果你想深入理解智能体背后的训练原理,掌握如何通过强化学习让智能体变得更聪明,本期内容将为你打开一扇新的大门。


本期内容大纲

第一章:开场——为什么需要训练

  • 提示工程的局限

    • 无法根本改变模型能力

    • 复杂任务表现受限

  • 训练的价值

    • 注入领域知识

    • 优化特定能力

    • 对齐人类偏好

第二章:监督微调(SFT)

  • SFT原理:在标注数据上继续训练

  • 数据准备

    • 高质量指令-响应对

    • 数据清洗和筛选

    • 数据增强技巧

  • 训练流程

    • 学习率设置

    • 训练轮数控制

    • 过拟合防范

第三章:奖励模型

  • 为什么需要奖励模型:量化输出质量

  • 奖励模型训练

    • 偏好数据收集

    • 排序损失函数

    • 模型架构设计

  • 奖励模型评估:与人类偏好的一致性

第四章:RLHF流程——PPO

  • RLHF(基于人类反馈的强化学习)概述

  • PPO(近端策略优化)算法

    • 策略网络和价值网络

    • 优势函数计算

    • clipped surrogate objective

  • RLHF训练流程

    1. 收集人类偏好数据

    2. 训练奖励模型

    3. 使用PPO优化策略

第五章:Agentic RL的独特性

  • 传统RLHF vs Agentic RL

    • 传统:关注单轮输出质量

    • Agentic:关注多轮任务完成度

  • Agentic RL的挑战

    • 长程依赖

    • 稀疏奖励

    • 探索与利用平衡

第六章:GRPO详解

  • GRPO(Group Relative Policy Optimization)

    • 群体相对策略优化

    • 无需价值网络

    • 更适合智能体场景

  • GRPO优势

    • 降低内存需求

    • 简化训练流程

    • 更好的稳定性

  • GRPO实现要点

第七章:训练数据构建

  • 数据类型

    • 指令跟随数据

    • 工具使用数据

    • 多轮对话数据

  • 数据质量控制

    • 多样性保证

    • 难度分布

    • 错误样本处理

第八章:训练流程实战

  • 环境准备

    • 硬件要求

    • 框架选择(TRL、LLaMA-Factory等)

  • 训练配置

    • 超参数设置

    • 分布式训练

  • 监控和调试

    • 损失曲线分析

    • 评估指标跟踪

第九章:训练挑战

  • 常见问题和解决方案

    • 灾难性遗忘

    • 奖励黑客

    • 训练不稳定

  • 调试技巧

第十章:训练 vs 提示工程选择

  • 选择框架
    | 场景 | 提示工程 | 训练 |
    |------|---------|------|
    | 快速验证 | ✓ | ✗ |
    | 通用能力提升 | ✗ | ✓ |
    | 资源有限 | ✓ | ✗ |

  • 混合策略:提示工程 + 轻量级微调


适合人群

  • 有深度学习基础的开发者

  • 希望深入理解智能体训练原理的技术人员

  • 想进行模型微调的研究者


你将收获

  • 理解SFT、RLHF、GRPO等训练方法

  • 掌握训练数据构建的方法

  • 了解训练流程和调试技巧

  • 学会在提示工程和训练之间做选择


关键词

SFT、监督微调、RLHF、PPO、GRPO、奖励模型、强化学习、Agentic RL、训练数据、灾难性遗忘、奖励黑客


学习建议

  • 本期技术难度较高,建议先掌握深度学习基础

  • 动手实践时从小规模模型开始

  • 关注DeepSeek-R1等开源项目的训练方法