想理解 Deepseek 中的 GROP 等强化学习算法,最好先理解强化学习之 PPO 算法,
理解 PPO 并不难,只需要先梳理清楚几个概念之间的区别,
1. Reward vs Value vs Advantage,
2. Model-free vs model-based,
3. On-policy vs Off-policy,
4. Policy-based vs Value-based,
然后理解 Advantage Actor Critic (A2C) 算法的设计思路,
1. 构建学生 actor 和导师 critic 两个神经网络,
2. 学生 actor 神经网络,追求 advantage 的优化,是 policy-based 模型,
3. 导师 critic 神经网络,追求全局 value 的最优化,是 value-based 模型,
4. 导师指导学生,从而避免学生过度激进,导致训练崩溃,
到这时,理解作为 A2C 模型的改进版 PPO,
以及 Deepseek 在 PPO 基础上,进一步做的三个改进,
就水到渠成了。


轻松理解强化学习之 PPO
35分钟 ·
502·
4
HD583692g
2025.2.14
2
拼写错误,应该是GRPO
讲得有些混乱