OAgents：构建高效AI智能体的实战经验与挑战

1. 概述与核心论点

这份研究论文《OAgents: An Empirical Study of Building Effective Agents》由OPPO AI Agent Team撰写，旨在解决当前代理AI研究中普遍存在的标准化和科学严谨性不足的问题。研究指出，由于缺乏标准化的设计、实现细节和评估协议，使得不同代理框架之间的公平比较变得困难，且结果往往难以复现。

核心论点：

当前代理研究缺乏标准化和科学严谨性： “我们认为当前的代理研究实践缺乏标准化和科学严谨性，使得很难在方法之间进行公平比较。因此，目前仍不清楚代理框架中不同的设计选择如何影响有效性，并且衡量其进展仍然具有挑战性。”

非一致性导致结果不可复现： 现有工作（即使是开源的）由于缺乏标准评估协议，导致结果不可复现，且随机运行之间存在显著差异。

识别关键组件和设计： 该研究通过系统的实证研究，揭示了哪些组件和设计对于构建有效代理至关重要，而哪些看似合理但实际上是冗余的。

推出OAgents框架： 基于研究发现，作者构建并开源了OAgents，一个模块化的基础代理框架，在开源项目中实现了最先进的性能。

2. 研究动机与问题

尽管语言代理（Agentic AI）作为一个热门研究领域，吸引了大量关注，但该领域面临着严峻的挑战，尤其是在科学研究的严谨性方面：

设计和实现细节的不一致性： 关键组件（如规划、记忆和工具使用）在不同论文和框架中差异巨大，“使得很难将性能改进归因于具体的创新。”

结果难以复现： 由于评估设置不一致或框架配置未公开，报告的结果通常难以复现，“这种碎片化损害了该领域的科学严谨性，因为研究结果无法可靠地比较或在此基础上构建。”

GAIA基准测试的再现性问题： 以GAIA基准测试为例，“尽管组织者提供了带有评估代码的公共排行榜，并且许多论文和项目都是开源的，但其他研究人员仍然很难（如果不是不可能的话）重现其结果，因为许多不明显的因素没有标准化，包括工具和提示的实现细节，以及评估协议的细节。”这些因素对整体性能有很大影响，有时甚至超过新的架构创新。

工程细节而非科学突破的竞争： “不同代理研究论文和代码库中的工程设计和细节如此之多，以至于不可能对特定技术设计进行公平比较。这使得代理AI研究社区很难正确地进行科学研究，而不是深入研究工程细节和评估协议中的技巧。”

最佳实践不明确： 尽管大量代理研究论文发布且公共基准上的数字不断增加，但构建有效代理的最佳实践仍然非常模糊。

3. OAgents框架与贡献

OAgents框架旨在通过提供一个模块化、可复现的平台来促进代理AI领域的科学研究。

OAgents框架的关键组件：

OAgents框架包括规划、记忆、工具和测试时扩展四个核心组件，如下图所示：

规划 (Planning):动态计划修订 (Dynamic Plan Revise): 基于最新观察，每N步修订计划，以适应动态环境并加强长期决策。

子任务分解 (Subtask Decompose): 将复杂任务分解为相互依赖的子任务，并构建依赖图，支持动态调度和错误检测。

计划提示 (Plan Tips Design): 从历史执行轨迹中提取经验知识和启发式指南，作为规划器的软约束，以避免已知陷阱并增强鲁棒性。

记忆 (Memory):当前记忆 (Current Memory): 短期缓冲区，存储任务特定的实时信息，用于即时决策。

记忆摘要 (Memory Summarization): 将原始经验序列转换为结构化语义单元，提取高显著性知识。

向量化记忆检索 (Memory Retrieval): 通过向量相似性检索有益的历史记忆。

长期记忆 (Long-Term Memory): 整合历史见解，持续优化任务执行，解决长推理链和上下文冗余问题。

工具 (Tools):多模态工具包 (Multimodal Toolkit): 集成文本、语音、图像和视频处理能力，实现跨模态语义解析，增强事实获取能力。

搜索代理 (Search Agent): 优化多源检索（Google、Bing、Wayback Machine等）、查询优化（Reflect和Expand机制）和极简浏览架构（Search、Visit、Read三个原子函数）。

测试时扩展 (Test-Time Scaling - TTS):多样性增强 (Diversity Enhancement): 混合代理采样策略，结合多个LLM策略，生成更广泛的解决方案空间。

优化 (Optimization): 基于过程的奖励函数，评估任务进展、错误处理和效率，提供持续反馈以优化推理轨迹。

奖励建模 / 反思 (Reflection): 实时反思机制，从过去的步骤中捕获纠正性见解，改进错误检测和即时调整。

主要贡献：

综合代理框架OAgents： OAgents框架包含“定期修订的计划生成、细粒度任务分解与同步执行、多源网络浏览优化、增强文档解析以及自适应记忆机制”，在GAIA基准测试的开源代理框架中排名第一。

系统性实证研究： 基于OAgents框架进行了系统的实证研究和性能分析，提供了分解、分析和优化代理设计的原则，揭示了最佳架构选择和影响实验稳定性的关键因素。

实用技术减少实验方差： 引入了减少实验方差的实用技术，“包括推理参数优化和多数投票策略，从而实现更可靠和一致的代理性能评估。”

4. 实验设置与结果分析

数据集和评估协议：

GAIA基准测试 [14]： 真实世界挑战，需要推理、多模态处理、网络搜索和工具使用等基本技能。评估指标为 Pass@N，主要报告 Pass@1 分数。允许模型在答案为空或包含“无法确定”时重新回答，但召回错误答案是非法的。

BrowseComp [28]： 更具挑战性的基准测试，用于验证搜索代理的能力。

关键发现：

OAgents的领先性能： 在GAIA基准测试中，OAgents-Pass@3实现了73.93%的最高平均分，优于所有其他开源和闭源框架。在Level 1任务中达到83.02%，与表现最好的框架持平。

现有框架的再现性差： 研究发现，对Open Deep Research [10]的复制（标记为“Smolagents”）性能显著下降，“这表明当前代理框架的再现性很差。”

4.1 事实获取能力 (FAC) 评估：

FAC衡量代理获取、验证和整合外部知识的能力，主要受工具组件影响。

多模态工具包的重要性：整合文本、语音、图像和视频处理能力，实现同步和跨模态语义解析。

OAgents + Toolkit 在GAIA多模态任务中取得了74.07%的准确率，远超基线的48.15%。在音频问答子任务中，时间推理准确率从0%提高到100%。

“这些结果表明，深度优化的多模态架构可以有效弥合智能代理系统中的模态差距。”

搜索代理框架的影响：Jina reader的优势： 在Level 2任务中，Jina reader比原始HTML解析性能高9.3%，强调了预处理在提高检索质量中的作用。

多源搜索的益处： 整合补充搜索引擎（DuckDuckGo、Baidu、Bing）显著提高了检索准确性，尤其是在Level 3任务中提高了7.69%。

查询优化的效果： 结合反思和扩展机制的查询优化策略显著提升了系统性能，Level 1提升7.55%，Level 2提升2.31%。

极简浏览架构的鲁棒性： 极简系统架构表现出竞争力，“支持了接口复杂性降低可以提高鲁棒性而不牺牲功能的假设。”

FAC改进对不同模型的影响：OAgents通过集成的多模态工具包和优化的搜索基础设施，在各种基础模型上都取得了显著的性能提升。

GPT-4o：整体分数提高8.09%，Level 3任务提高7.69%。

Gemini-2.5：平均提高9.09%，Level 3任务提高19.24%。

Claude-3-7：增益最高，达到20.61%，“证明了该框架对不同基线性能模型的适应性。”

“这些结果证实FAC改进显著提升了智能代理在各种架构下的性能。”

4.2 逻辑推理保真度 (LRF) 评估：

LRF通过规划、记忆和测试时扩展来确保稳定和连贯的决策。

动态计划生成：战略计划修订： 相较于静态工作流，动态计划修订将整体准确率提高了3.64%，证实了其在适应性和长期推理方面的优势。

子任务分解： 实现了2.42%的改进，表明结构化子任务分解增强了系统推理能力。

计划提示： 基于历史错误日志分析和启发式知识，带来了14.54%的性能提升，“证明了利用先前经验有助于防止错误并构建更鲁棒的计划。这对于高复杂性任务尤其重要。”

记忆模块：记忆组件显著增强了代理的认知能力。

记忆摘要略微提高了平均准确率（51.52%到52.12%）。

记忆检索进一步提升了性能（到53.33%）。

长期记忆带来了最显著的提升，平均准确率达到55.76%，并在所有难度级别上都取得了有竞争力的结果。

测试时扩展 (TTS)：反思 (Reflection)： 整体适度提升3.03%，但在Level 3任务上意外下降6.62%，可能存在复杂推理链中的不稳定或错误积累。

Best-of-N (BO N) 采样： 随着样本量增加，性能持续提升。BO2适度提升1.82%，BO4取得最佳整体性能（5.19%），尤其对简单任务（Level 1: 9.44%，Level 2: 10.46%）有显著益处。“这表明答案多样性有助于更有效地探索简单的解决方案空间。”

挑战： 两种策略都未能显著提升Level 3任务的性能，凸显了在规模上实现鲁棒多步推理的持续难度。

4.3 BrowseComp 评估：

OAgents在BrowseComp基准测试中显著提升了模型的网络浏览能力。

OAgents - GPT-4.1 和 OAgents - Claude-3-7 均达到了22.22%的性能，而单独的模型（Claude-3-7、GPT-4.1、OpenAI-o1）表现远低于此。

5. GAIA基准测试的评估协议问题

研究再次强调了GAIA基准测试中评估协议不一致的问题，特别是在使用不同Pass@K标准（Pass@1、Pass@3、Pass@5）方面。

“这种不一致性使得不同代理框架之间的公平比较变得复杂，并限制了它们实际能力的透明度。”

为了解决这个问题，研究重新实现了最先进的OWL框架以获得其Pass@1性能进行比较，并评估了OAgents在Pass@3设置下的性能。

OAgents在Pass@3指标下，展示了在现有开源框架中的竞争力。

6. 结论

该研究对GAIA和BrowseComp进行了系统的实证研究，并得出以下关键结论：

识别关键组件： 成功识别了有效代理的关键组件，包括规划、记忆和工具使用。

提出鲁棒的评估协议： 为解决现有评估中的再现性问题，提出了更鲁棒的评估协议。

发布OAgents： OAgents作为一个开源的模块化代理框架，在GAIA上实现了73.93%的最先进性能，为未来代理AI领域的研究奠定了基础。

附录：OAgents模块的详细提示

附录部分提供了OAgents中关键模块（规划、搜索代理、记忆、测试时扩展）所使用的详细提示文本，这些提示设计精巧，旨在引导LLM在各个环节中进行高效、准确的推理和操作。

这些详细的提示是OAgents框架能够实现高性能和模块化设计的关键，它们体现了在不同决策和行动阶段对LLM进行精细化引导的策略。

原文：[2506.15741] OAgents: An Empirical Study of Building Effective Agents