轻松理解强化学习之 PPOAI 前线

轻松理解强化学习之 PPO

35分钟 ·
播放数502
·
评论数4

想理解 Deepseek 中的 GROP 等强化学习算法,最好先理解强化学习之 PPO 算法,

理解 PPO 并不难,只需要先梳理清楚几个概念之间的区别,
1. Reward vs Value vs Advantage,
2. Model-free vs model-based,
3. On-policy vs Off-policy,
4. Policy-based vs Value-based,

然后理解 Advantage Actor Critic (A2C) 算法的设计思路,
1. 构建学生 actor 和导师 critic 两个神经网络,
2. 学生 actor 神经网络,追求 advantage 的优化,是 policy-based 模型,
3. 导师 critic 神经网络,追求全局 value 的最优化,是 value-based 模型,
4. 导师指导学生,从而避免学生过度激进,导致训练崩溃,

到这时,理解作为 A2C 模型的改进版 PPO,
以及 Deepseek 在 PPO 基础上,进一步做的三个改进,
就水到渠成了。

展开Show Notes
HD583692g
HD583692g
2025.2.14
拼写错误,应该是GRPO
HD834781e
HD834781e
2025.5.16
grpo,怎么感觉你不懂啊
东耳95
东耳95
2025.3.13
无人驾驶应该都不是强化学习
HoshinoRen
HoshinoRen
2025.2.26
讲得有些混乱