SHARE

COMMENT

VOICE_COMMENT

COMMENT_PIN_OPERATION

MUTE_COMMENT_AUTHOR

DELETE

想理解 Deepseek 中的 GROP 等强化学习算法，最好先理解强化学习之 PPO 算法，
理解 PPO 并不难，只需要先梳理清楚几个概念之间的区别，
1. Reward vs Value vs Advantage,
2. Model-free vs model-based，
3. On-policy vs Off-policy,
4. Policy-based vs Value-based,
然后理解 Advantage Actor Critic (A2C) 算法的设计思路，
1. 构建学生 actor 和导师 critic 两个神经网络，
2. 学生 actor 神经网络，追求 advantage 的优化，是 policy-based 模型，
3. 导师 critic 神经网络，追求全局 value 的最优化，是 value-based 模型，
4. 导师指导学生，从而避免学生过度激进，导致训练崩溃，
到这时，理解作为 A2C 模型的改进版 PPO，
以及 Deepseek 在 PPO 基础上，进一步做的三个改进，
就水到渠成了。

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI、机器人、芯片的学术前沿与商业竞争，
新闻分析、学术科普、历史回顾，三位一体。

AI_SUMMARIZE_EPISODE

AI 前线

轻松理解强化学习之 PPO

679d8c5ded7799e793bb7936/lkzb4qnVDXxG1-3V7hbkqpGxxHIp.m4a