Anthropic：如何构建多智能体研究系统

Anthropic的“我们如何构建多智能体研究系统”一文详细介绍了其用于复杂主题探索的多智能体系统——Research功能。该系统利用多个Claude智能体协同工作，以克服单一大型语言模型（LLM）在处理开放式、不可预测的研究任务时所面临的局限性。文章深入探讨了多智能体架构的优势、工程挑战、提示工程原则、评估方法以及生产部署的可靠性考虑。核心思想是，通过让多个智能体并行工作并进行协调，可以显著提高研究的广度、深度和效率，尤其是在信息量庞大且需要多方面探索的任务中。

主要主题与重要见解

多智能体系统是扩展AI性能的关键

不可预测任务的优势：研究工作本质上是开放式的，难以预先预测所有步骤。多智能体系统具有灵活性，可以根据中间发现动态调整方法，这使其特别适合研究任务。“当人们进行研究时，他们倾向于根据发现不断更新他们的方法，遵循调查过程中出现的线索。”

并行化与信息压缩：子智能体通过在各自的上下文窗口中并行操作，同时探索问题的不同方面，然后将最重要的信息压缩并传递给主研究智能体，从而促进了信息压缩。这减少了路径依赖性并实现了彻底的独立调查。

性能规模化：“一旦智能达到某个阈值，多智能体系统就成为扩展性能的重要方式。”文中将此与人类社会的集体智慧类比，指出群体智能体能够比个体智能体完成更多任务。

显著的性能提升：内部评估显示，由Claude Opus 4作为主智能体和Claude Sonnet 4作为子智能体组成的多智能体系统，在内部研究评估中比单一智能体Claude Opus 4的性能高出90.2%。

token 使用效率：多智能体系统通过在具有独立上下文窗口的智能体之间分配工作，有效扩展了token的使用，从而处理超出单一智能体限制的任务。

多智能体架构：“编排者-工作者”模式

架构概览：Research系统采用“编排者-工作者”模式，其中一个主智能体协调整个过程，并委派任务给专门的并行子智能体。

动态适应性：与传统的检索增强生成（RAG）不同，该架构使用多步搜索，动态地寻找相关信息，适应新发现，并分析结果以形成高质量的答案。

工作流程：用户查询提交后，主智能体分析、制定策略，并生成子智能体并行探索不同方面。子智能体作为智能过滤器，使用搜索工具收集信息，然后将发现返回给主智能体进行综合。

记忆与上下文管理：主研究员会将计划保存到记忆中，以持久化上下文，防止上下文窗口溢出。当上下文限制接近时，智能体可以生成具有干净上下文的新子智能体，并通过精心移交来保持连续性。

提示工程：引导智能体行为的关键

核心挑战：多智能体系统面临协调复杂性快速增长的问题，早期智能体容易出现错误，例如为简单查询生成过多子智能体，无休止地搜索不存在的来源，或因过度更新而分散彼此注意力。

关键原则：

像智能体一样思考：通过模拟和观察智能体的逐步工作来理解提示的效果，从而发现故障模式。

教导编排者如何委派：主智能体需要向子智能体提供明确的目标、输出格式、工具和来源指导以及清晰的任务边界，以避免重复工作或遗漏。

根据查询复杂性调整投入：在提示中嵌入缩放规则，指导主智能体根据任务复杂性（简单事实查询、直接比较、复杂研究）高效分配资源（智能体数量、工具调用次数）。

工具设计和选择至关重要：明确工具的用途和清晰的描述，并提供使用启发式规则（如先检查所有可用工具，根据用户意图匹配工具，优先使用专业工具）。

让智能体自我改进：Claude 4模型在诊断故障和建议提示改进方面表现出色。一个工具测试智能体甚至可以重写工具描述以避免未来错误，从而显著减少任务完成时间。

先广后窄的搜索策略：提示智能体从简短、宽泛的查询开始，评估可用信息，然后逐步缩小焦点，以模仿人类专家的研究方法。

引导思维过程（思考模式）：利用Claude的扩展思考模式作为可控的草稿，让主智能体规划方法，子智能体评估工具结果、识别差距并细化查询，从而提高指令遵循、推理和效率。

并行工具调用：引入两种并行化以提高速度：(1) 主智能体并行启动多个子智能体；(2) 子智能体并行使用多个工具。这可以将复杂查询的研究时间缩短高达90%。

启发式而非硬性规则：提示策略侧重于灌输良好的启发式方法，模拟人类专家的研究方法，例如分解问题、评估来源质量、调整搜索方法以及区分深度与广度。

有效评估的策略

多智能体评估的挑战：多智能体系统是非确定性的，即使起点相同，智能体也可能采取不同的有效路径达到目标。评估需要判断“是否实现了正确的结果，同时也遵循了合理的过程”，而不仅仅是检查是否遵循了预设的“正确”步骤。

评估方法：

从小样本开始立即评估：早期开发阶段，即使是小样本测试（约20个查询）也能清晰地显示出重大变化的影响，因为效果规模很大。

LLM 作为判断者：LLM非常适合评估自由形式的文本输出，并能根据准确性、引用、完整性、来源质量和工具效率等标准进行评分。使用单个LLM调用进行评分并给出通过/失败等级最为一致。这种方法允许可扩展地评估数百个输出。

人工评估弥补自动化不足：人类测试者能发现自动化评估遗漏的边缘案例，如幻觉答案、系统故障或微妙的来源选择偏差（例如早期智能体倾向于SEO优化内容农场而非权威来源）。

生产可靠性与工程挑战

状态与错误复合：智能体是状态化的，长时间运行，小错误可能导致灾难性后果。需要构建系统来从错误发生处恢复，并让智能体智能地适应（例如，当工具失败时）。结合了Claude的适应性与确定性保障（如重试逻辑和定期检查点）。

调试新方法：智能体动态决策且非确定性，使得调试困难。完整的生产跟踪（tracing）有助于诊断故障原因。高层次的智能体决策模式和交互结构监控有助于发现根本原因和意外行为。

部署协调：智能体系统是高度状态化的提示、工具和执行逻辑的网络。部署更新时需要小心协调，例如使用“彩虹部署”逐步转移流量，以避免中断正在运行的智能体。

同步执行的瓶颈：当前的主智能体同步执行子智能体，简化了协调但造成了信息流瓶颈。未来的异步执行将实现更大程度的并行化，但会带来结果协调、状态一致性和错误传播的挑战。

关键事实与数据

多智能体系统在内部研究评估中比单一智能体Claude Opus 4的性能高出90.2%。

在BrowseComp评估中，token 使用量本身解释了**80%**的性能差异，其次是工具调用次数和模型选择。

智能体通常使用的token量是聊天互动的4倍，而多智能体系统使用的token量是聊天的15倍。这意味着经济可行性需要任务价值足够高以支付增加的性能成本。

并行化（主智能体并行启动3-5个子智能体，子智能体并行使用3个以上工具）使复杂查询的研究时间缩短了高达90%。

通过让智能体自我改进工具描述，任务完成时间减少了40%。

Research功能的前五大用例类别：

开发跨专业领域的软件系统 (10%)

开发和优化专业技术内容 (8%)

开发业务增长和收入生成策略 (8%)

协助学术研究和教育材料开发 (7%)

研究和验证关于人物、地点或组织的信息 (5%)

结论与启示

Anthropic的经验表明，尽管从原型到生产的多智能体系统面临诸多挑战（例如错误复合、调试复杂性、部署协调和同步执行限制），但它们在处理开放式、复杂研究任务方面具有巨大的价值。成功的关键在于：

精心的工程设计：构建能够处理状态、错误恢复和弹性部署的鲁棒系统。

全面的测试与评估：结合小样本快速迭代、LLM作为判断者的大规模评估以及人工测试以捕捉边缘案例。

细致的提示与工具设计：将人类专家研究策略编码为智能体行为启发式，明确委派任务，并确保工具清晰、有效。

强大的可观察性与反馈循环：了解智能体决策模式和交互结构对于诊断和修复问题至关重要。

跨团队协作：研究、产品和工程团队的紧密合作以及对当前智能体能力的深入理解。

多智能体系统通过提供前所未有的广度、深度和效率，正在改变人们解决复杂问题的方式，帮助用户发现商业机会、导航复杂选项、解决技术难题，并节省大量研究时间。

原文：How we built our multi-agent research system \ Anthropic