2503.14858 深度网络让机器人学会弹墙

2503.14858 深度网络让机器人学会弹墙

19分钟 ·
播放数0
·
评论数0

这份研究探讨了在自我监督强化学习 (self-supervised Reinforcement Learning, RL) 中扩展深度神经网络的潜力,旨在弥补 RL 领域相比语言和视觉领域在模型扩展性上的差距。作者通过将网络深度从传统的 2-5 层扩展至 1024 层,结合对比强化学习 (Contrastive RL, CRL) 算法和残差连接等架构技巧,在无人监管的目标导向任务中实现了显著的性能提升,性能增益高达 2 倍至 50 倍。关键发现是,增加模型深度不仅提高了任务成功率,还促使学习到的行为发生了质的改变,并且深度扩展比宽度扩展更为有效,同时还能解锁更大批量大小训练的优势。这项工作证明了通过系统性地扩展网络深度,可以为 RL 系统带来新的目标达成能力