Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets
Summary
近期研究报告称,多智能体大语言模型系统(multi-agent LLM systems,MAS)表现出很强的性能,但这些性能提升往往受到“测试时计算量增加”这一因素的干扰。当计算资源被归一化后,单智能体系统(single-agent systems,SAS)实际上能够达到甚至超过 MAS 的表现;然而,这种比较背后的理论基础和评测方法仍不清晰。
我们提出了一个基于信息论的论证,其核心建立在“数据处理不等式”(Data Processing Inequality)之上。该论证表明:在推理 token 预算固定、且上下文利用率完美的情况下,单智能体系统在信息利用效率上更优。
这一观点进一步预测:当单个智能体的上下文利用能力下降,或者允许消耗更多计算资源时,多智能体系统才会变得更具竞争力。
我们在一个受控实验研究中验证了这些预测。实验覆盖三个模型家族:
Qwen3
DeepSeek-R1-Distill-Llama
Gemini 2.5
并在统一预算条件下,对单智能体系统与多种多智能体架构进行了比较。
实验结果表明:在推理 token 数量保持一致时,SAS 在多跳推理(multi-hop reasoning)任务上始终能够匹配甚至超过 MAS 的表现。
除了总体性能分析之外,我们还对系统行为和评测方法进行了详细诊断。我们发现:
基于 API 的预算控制存在显著伪差(artifacts),尤其是在 Gemini 2.5 中;
标准基准测试本身也存在问题;
这两类因素都会夸大 MAS 看似带来的性能收益。
总体而言,我们的结果表明:对于多跳推理任务,许多已报告的多智能体系统优势,更可能是由于未被充分统计的计算量和上下文效应,而不是源于其架构本身的天然优势。
研究同时强调,在智能体系统(agentic systems)中,理解并明确控制“计算资源、上下文利用与协同机制”之间的权衡关系至关重要。
原文链接:arxiv.org

