AI成长的秘密:如何拿捏“奖”与“罚”的尺度

AI成长的秘密:如何拿捏“奖”与“罚”的尺度

4分钟 ·
播放数66
·
评论数0

[LG] Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards  
[FAIR at Meta]  
arxiv.org