【第597期】单智能体与多智能体大模型推理效能对比研究

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Summary

近期研究报告称，多智能体大语言模型系统（multi-agent LLM systems，MAS）表现出很强的性能，但这些性能提升往往受到“测试时计算量增加”这一因素的干扰。当计算资源被归一化后，单智能体系统（single-agent systems，SAS）实际上能够达到甚至超过 MAS 的表现；然而，这种比较背后的理论基础和评测方法仍不清晰。

我们提出了一个基于信息论的论证，其核心建立在“数据处理不等式”（Data Processing Inequality）之上。该论证表明：在推理 token 预算固定、且上下文利用率完美的情况下，单智能体系统在信息利用效率上更优。

这一观点进一步预测：当单个智能体的上下文利用能力下降，或者允许消耗更多计算资源时，多智能体系统才会变得更具竞争力。

我们在一个受控实验研究中验证了这些预测。实验覆盖三个模型家族：

Qwen3
DeepSeek-R1-Distill-Llama
Gemini 2.5

并在统一预算条件下，对单智能体系统与多种多智能体架构进行了比较。

实验结果表明：在推理 token 数量保持一致时，SAS 在多跳推理（multi-hop reasoning）任务上始终能够匹配甚至超过 MAS 的表现。

除了总体性能分析之外，我们还对系统行为和评测方法进行了详细诊断。我们发现：

基于 API 的预算控制存在显著伪差（artifacts），尤其是在 Gemini 2.5 中；
标准基准测试本身也存在问题；

这两类因素都会夸大 MAS 看似带来的性能收益。

总体而言，我们的结果表明：对于多跳推理任务，许多已报告的多智能体系统优势，更可能是由于未被充分统计的计算量和上下文效应，而不是源于其架构本身的天然优势。

研究同时强调，在智能体系统（agentic systems）中，理解并明确控制“计算资源、上下文利用与协同机制”之间的权衡关系至关重要。

原文链接：arxiv.org