本研究介绍了一种名为 GURU 的综合性强化学习 (RL) 数据集，该数据集包含 9.2 万个可验证示例，涵盖数学、代码、科学、逻辑、模拟和表格六个不同的推理领域。论文指出，目前大多数关于大型语言模型 (LLM) 推理的 RL 研究都局限于数学和代码领域，这限制了对 RL 更广泛适用性的理解。通过 GURU，作者系统地重新审视了 RL 在 LLM 推理中的既有发现，并观察到 RL 的效果在不同领域之间存在显著差异，例如，RL 在预训练中频繁出现的领域（如数学、代码、科学）中主要激发现有知识，而在预训练中接触较少的领域（如逻辑、模拟、表格）中则更有可能促进真正的技能习得。基于此，研究团队开发了 GURU-7B 和 GURU-32B 两个模型，它们在开放模型中取得了最先进的性能，并在 17 项任务的评估套件中超越了现有基线。研究成果及其发布的数据集和代码旨在促进通用推理研究的发展。
《Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective》
https://arxiv.org/pdf/2506.14965

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

huke021

每天听论文，了解最新AI技术，和我们一起站在人工智能的潮头浪尖

AI_SUMMARIZE_EPISODE

AI论文日拱一卒

1.从跨领域视角重审强化学习在大型语言模型推理中的应用

684459f8c2934b393ff99fe7/ll2OGf63RQsNavqThdI5h0p_jKjb.m4a