【第561期】AgentConductor：强化学习驱动的多智能体代码生成拓扑演化

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Summary

由大语言模型（LLM）驱动的多代理系统（MAS）通过预定义的交互拓扑结构协调专业代理，并在竞赛级代码生成等复杂任务中展现出巨大潜力。近期研究表明，精心设计的多代理工作流和通信图可以通过协作推理显著提升代码生成性能。

然而，现有方法既不能根据任务难度自适应地调整拓扑密度，也无法利用执行反馈在单个实例内迭代优化拓扑，这导致了冗余通信和性能瓶颈。

为了解决这些问题，我们提出了 AgentConductor：一个由强化学习优化的 MAS。其核心是一个基于 LLM 的编排代理（Orchestrator Agent），能够实现端到端、反馈驱动的交互拓扑动态生成。针对每个查询，AgentConductor 会推断代理角色和任务难度，随后构建一个任务自适应且感知密度的分层有向无环图（DAG）拓扑。

该系统包含两项核心创新：

拓扑密度函数：设计了一种全新的函数，用于捕捉多代理交互中感知通信的数学特征。

难度区间划分：采用难度区间划分策略，避免过度剪枝，从而实现对每个难度级别拓扑密度上限的精确测量和更精细的控制。

实验结果显示，在三个竞赛级和两个基础代码数据集上，AgentConductor 达到了当前最先进（SOTA）的准确率。与最强基准模型相比，其 pass@1 准确率提升了高达 14.6%，拓扑密度降低了 13%，且 Token 成本降低了 68%。

原文链接：arxiv.org