【第510期】研究计划生成模型的微调与跨领域评估

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

Training AI Co-Scientists Using Rubric Rewards

Summary

AI 协作科学家（AI co-scientists）正逐渐成为辅助人类研究者实现科研目标的重要工具。这类系统的一个关键能力，是在给定研究目标与约束条件的情况下生成可行的研究计划。这些计划既可用于研究者头脑风暴，也可在进一步完善后付诸实施。然而，目前的语言模型在生成同时满足所有显性约束与隐含要求的研究计划方面仍存在明显不足。

在本研究中，我们探索如何利用海量已有科研论文语料，训练语言模型生成更高质量的研究计划。我们通过自动化方法，从多个领域的论文中提取研究目标以及针对特定目标的评分细则（goal-specific grading rubrics），构建了一个可扩展且多样化的训练语料库。在此基础上，我们采用带有自评机制（self-grading）的强化学习方法对模型进行训练。在训练过程中，初始策略的冻结副本充当评分器，而评分细则则在生成器与验证器之间构建出“生成—评估差距”（generator-verifier gap），从而在无需外部人工监督的情况下实现性能提升。

为验证该方法的有效性，我们针对机器学习领域的研究目标开展了一项由人类专家参与的研究，总计耗时 225 小时。结果显示，在 70% 的研究目标上，专家更偏好我们微调后的 Qwen3-30B-A3B 模型所生成的研究计划，而非初始模型生成的版本；同时，专家认可 84% 自动提取的目标特定评分细则。

为评估方法的泛化能力，我们还将该框架扩展至医学论文中的研究目标以及新的 arXiv 预印本，并通过一组前沿模型组成的“评审团”进行评估。实验结果表明，我们的微调方法带来了 12%–22% 的相对性能提升，并展现出显著的跨领域泛化能力，即使在诸如医学研究这类难以获得执行反馈的问题场景中，也依然有效。

总体而言，这些发现表明，一种可扩展、自动化的训练范式有望成为提升通用 AI 协作科学家能力的重要一步。

原文链接：arxiv.org