【第598期】通过原子技能强化学习扩展编程智能体

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Scaling Coding Agents via Atomic Skills

Summary

当前的 LLM 编码智能体主要基于复合型基准任务（例如 Bug 修复）进行训练，这往往会导致针对特定任务的过拟合以及泛化能力受限。为了解决这一问题，我们提出了一种新的扩展范式，将重点从任务级优化转向原子技能掌握。我们首先形式化定义了五种基础原子技能：代码定位、代码编辑、单元测试生成、问题复现以及代码审查，这些技能构成了复杂软件工程任务的基向量。相比复合型编码任务，这些原子技能具有更强的泛化性与可组合性。随后，我们通过在原子技能上进行联合强化学习（joint RL）来扩展编码智能体。通过这种方式，各项原子技能能够在不存在负面干扰或相互权衡的情况下持续提升。值得注意的是，我们观察到，这些原子技能的提升能够很好地泛化到其他未见过的复合型编码任务中，例如 Bug 修复、代码重构、机器学习工程以及代码安全等。这一发现推动了一种新的编码智能体扩展范式：基于原子技能进行训练。大量实验表明了我们所提出范式的有效性。特别地，我们的联合强化学习方法在 5 项原子技能和 5 项复合任务上的平均性能提升达到了 18.7%。

原文链接：arxiv.org