在线策略蒸馏On-Policy Distillation | Thinking Machines Lab新作

在线策略蒸馏On-Policy Distillation | Thinking Machines Lab新作

20分钟 ·
播放数197
·
评论数0

Thinking Machines Lab最新发布的技术文章,在线策略蒸馏,这是一种将强化学习的纠错相关性,与监督微调的奖励密度相结合的训练方法,可以极低的成本超越其他方法。今天我们就来给大家解读一下这篇论文。

thinkingmachines.ai

聊天讨论群,微信群二维码,可加个人微信gxjdian入群