AI界的“学霸”和“学神”:差的不是智商,是训练方法

AI界的“学霸”和“学神”:差的不是智商,是训练方法

5分钟 ·
播放数95
·
评论数0

[CL] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
[Shanghai Jiao Tong University]
arxiv.org