1.从跨领域视角重审强化学习在大型语言模型推理中的应用

1.从跨领域视角重审强化学习在大型语言模型推理中的应用

16分钟 ·
播放数7
·
评论数0

本研究介绍了一种名为 GURU 的综合性强化学习 (RL) 数据集,该数据集包含 9.2 万个可验证示例,涵盖数学、代码、科学、逻辑、模拟和表格六个不同的推理领域。论文指出,目前大多数关于大型语言模型 (LLM) 推理的 RL 研究都局限于数学和代码领域,这限制了对 RL 更广泛适用性的理解。通过 GURU,作者系统地重新审视了 RL 在 LLM 推理中的既有发现,并观察到 RL 的效果在不同领域之间存在显著差异,例如,RL 在预训练中频繁出现的领域(如数学、代码、科学)中主要激发现有知识,而在预训练中接触较少的领域(如逻辑、模拟、表格)中则更有可能促进真正的技能习得。基于此,研究团队开发了 GURU-7BGURU-32B 两个模型,它们在开放模型中取得了最先进的性能,并在 17 项任务的评估套件中超越了现有基线。研究成果及其发布的数据集和代码旨在促进通用推理研究的发展。
《Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective》
arxiv.org