【第592期】大语言模型多智能体规划的可靠性界限

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

On the Reliability Limits of LLM-Based Multi-Agent Planning

Summary

本技术笔记探讨了基于 LLM 的多智能体规划作为一种“委托决策问题”的可靠性极限。

我们将多智能体架构建模为一个有限无环决策网络。在该网络中，多个阶段处理共享的模型上下文信息，通过容量有限的语言接口进行通信，并可能引入人工审查。

我们的研究得出了一个基础性的结论：在没有引入新的外部信号的情况下，任何委托决策网络在决策论意义上，都受到一个拥有相同信息的中心化贝叶斯决策者（Centralized Bayes Decision Maker）的“支配”。

这意味着，多智能体协作并不会在信息处理上产生“1+1>2”的神奇增益；相反，它更多是在受限条件下对信息的重新组织。在“共同证据（Common-evidence）”范式下，优化多智能体有向无环图（DAG）的过程，实际上可以被视为在有限通信预算下，对共享信号选择一种受限的随机实验。

我们进一步刻画了由于通信和信息压缩导致的性能损失。在适当评分规则（Proper scoring rules）下，中心化贝叶斯价值与委托决策价值之间的差距，可以用期望后验散度（Expected posterior divergence）来表示：

这些数学性质界定了 LLM 规划在被“分包”给多个智能体时，由于信息流转不畅而导致的可靠性天花板。

通过在受控问题集上对 LLM 进行实验，我们证实了上述理论刻画。实验表明，随着通信瓶颈的加剧，多智能体系统的规划质量会严格遵循上述数学规律下降。

总结： 这项研究为多智能体规划泼了一盆“理性的冷水”：如果没有新的信息输入，拆分任务和增加智能体数量本质上是在进行一场有损的信息博弈。 要想逼近可靠性极限，关键在于如何最小化通信过程中的信息熵损失。

原文链接：arxiv.org