2509.13309v1 拆解WebResearcher的“迭代式研究”范式（IterResearch）

本文档概述了由阿里巴巴集团通义实验室开发的WebResearcher框架，这是一个旨在解决长时程AI智能体（Long-Horizon Agents）推理能力瓶颈的新型系统。该框架的核心贡献在于提出了一种名为IterResearch的迭代式深度研究范式，它将研究过程重构为马尔可夫决策过程（MDP），通过周期性地整合发现、重构工作空间来克服现有“单上下文范式”（mono-contextual paradigm）普遍存在的上下文窒息和噪声污染问题。为解决训练数据稀缺的挑战，该框架引入了WebFrontier，一个可扩展的数据合成引擎，利用工具增强的语言模型系统性地生成高质量、高复杂度的研究任务。在推理阶段，WebResearcher采用研究-综合框架（Research-Synthesis Framework），通过并行多智能体探索和后续的综合分析，有效利用测试时扩展（test-time scaling）来提升结论的全面性和鲁棒性。在6个极具挑战性的基准测试中，WebResearcher展现了顶尖性能，其表现在多个关键指标上不仅超越了所有开源模型，甚至优于顶级的专有系统。例如，在“人类最后一场考试”（Humanity's Last Exam, HLE）基准上，WebResearcher-heavy版本取得了**36.7%**的准确率，显著高于DeepSeek-V3.1（29.8%）和OpenAI Deep Research（26.6%）。这些成果验证了迭代式综合范式在处理复杂研究任务时的根本性优势。--------------------------------------------------------------------------------1. 背景：从被动知识到主动构建传统的人工智能发展路径侧重于通过扩展模型规模来积累海量的被动知识。然而，这种方法存在一个关键局限：模型虽能记忆和回忆信息，却难以主动地从外部来源发现、验证和合成新知识。这一局限催生了向主动自治智能体系统的范式转变，这些系统模仿人类研究工作流，能够动态地分解复杂问题、调用工具并整合信息。尽管以OpenAI的Deep Research为代表的专有系统和众多开源项目（如WebThinker, WebSailor）取得了显著进展，但它们普遍采用一种单上下文范式。该范式将所有检索到的信息和中间推理步骤线性地累积到一个不断扩展的上下文中。这种策略存在两个致命缺陷：1. 认知工作空间窒息 (Cognitive Workspace Suffocation)：随着上下文窗口被累积的数据填满，模型用于深度思考的“工作空间”被严重挤占，导致其推理能力下降，并可能被迫在信息不充分时得出结论。2. 不可逆的噪声污染 (Irreversible Noise Contamination)：缺乏有效筛选机制，导致早期不相关的信息和错误判断会持续存在于整个研究过程中，稀释了有效信号，并使偏差不断累积放大。这些缺陷形成了一个悖论：智能体为解决复杂问题收集的信息越多，其处理和推理这些信息的能力反而越弱。2. WebResearcher框架核心组件WebResearcher通过三大核心组件系统性地解决了上述挑战。2.1 IterResearch：迭代式深度研究范式为克服单上下文范式的局限，WebResearcher提出了IterResearch，一种将深度研究重构为马尔可夫决策过程（MDP）的迭代式范式。其核心思想是用迭代综合与重构取代线性累积。该范式将研究过程分解为离散的回合（round）。在每个回合中，智能体的状态仅包含三个核心要素：• 原始研究问题 (Question)• 不断演进的报告 (Report)：综合了之前所有回合的发现和当前进展，作为智能体的核心记忆。• 最近一次的工具交互 (Action and Tool Response)为指导每个回合的决策，智能体生成三类结构化元信息：• Think (思考)：作为智能体的认知草稿，用于分析当前状态、评估进展和规划下一步行动。这部分内容仅用于当前回合，不会进入下一回合的上下文，以防信息冗杂。• Report (报告)：范式的核心。智能体将新发现与已有知识综合，生成一个高密度、连贯的摘要。这份更新后的报告是构建下一回合工作空间的主要依据。• Action (行动)：智能体的具体操作，分为两种：◦ 工具调用 (Tool Call)：与外部环境（如搜索引擎、代码解释器）交互以获取新信息。◦ 最终答案 (Final Answer)：当智能体判断已收集到足够证据时，输出最终结论并终止研究。通过这种方式，IterResearch确保了工作空间的大小保持恒定，无论研究进行多少回合，都能维持完整的推理能力。周期性的报告综合起到了智能过滤器的作用，保留有效信号、剔除噪声，并允许智能体通过修正报告来纠正早期错误，从而实现了理论上无上限的研究深度。两种范式的对比特性单上下文范式 (Mono-contextual Paradigm)IterResearch 迭代范式信息处理线性累积所有信息迭代式综合与重构工作空间不断膨胀，受上下文长度限制保持精简、专注，大小恒定核心问题上下文窒息、噪声污染、性能随步数增加而下降避免信息过载，持续过滤噪声，维持高质量推理错误处理早期错误难以纠正，会持续影响后续步骤可通过修正报告来恢复和纠正错误研究深度受限于上下文长度理论上无上限2.2 WebFrontier：可扩展的数据合成引擎为了解决训练高级智能体所需的高质量数据稀缺的问题，框架引入了WebFrontier数据引擎。该引擎通过一个三阶段的迭代工作流，利用多智能体协作来系统性地生成高复杂度、事实准确且可验证的训练任务。1. 阶段一：种子数据生成 (Seed Data Generation)◦ 从网页、学术论文等多源语料库中提取信息密集的文本块。◦ 通过组合相关文本块形成复合单元，并由一个ItemWriter Agent生成需要综合多源信息的初始问答（QA）对。2. 阶段二：迭代式复杂度提升 (Iterative Complexity Escalation)◦ ItemWriter Agent被赋予网页搜索、学术搜索、浏览器和Python解释器等工具。◦ 通过知识扩展（查询外部来源）、概念抽象（提炼高阶原则）、事实 grounding（多源交叉验证）和计算化构建（设计需要计算或仿真的问题）四种操作，迭代地提升问答对的认知复杂度和范围。3. 阶段三：严格的质量控制 (Rigorous Quality Control)◦ 一个无工具的QuestionSolver Agent首先尝试回答问题，能被轻易解决的简单QA对被过滤掉。◦ 一个配备工具的QuestionSolver Agent（模拟目标模型能力）再次尝试回答。成功解决的被保留为高质量训练数据，失败的则被标记为过难或有缺陷并被丢弃。◦ Judge Agent和SimilarityScorer Agent分别负责自动评估答案的正确性和过滤语义重复的数据。2.3 研究-综合框架：利用测试时扩展为了在推理时进一步提升性能，WebResearcher引入了研究-综合框架（Research-Synthesis Framework）。该框架通过并行化探索来充分利用测试时计算资源。1. 并行研究 (Parallel Research)：部署 n 个Research Agents，每个智能体都遵循IterResearch范式独立解决同一个问题。由于每个智能体可能采用不同的工具和推理路径，最终会产出 n 组不同的最终报告和预测答案。2. 综合集成 (Integrative Synthesis)：一个Synthesis Agent（实验中使用Qwen3-235B-A22B）接收来自所有Research Agents的最终报告和答案，并综合这些多样化的发现，生成一个更全面、更鲁棒的最终结论。由于IterResearch生成的报告高度浓缩了整个推理路径，Synthesis Agent可以在有限的上下文中评估更多样的解题策略，从而高效地利用测试时扩展。3. 实验结果与性能WebResearcher在6个涵盖复杂推理、网页导航和长时程信息检索的基准测试中进行了全面评估，其性能表现优异。3.1 综合网页导航与推理基准在通用网页导航和推理任务中，WebResearcher的优势尤为明显。模型/系统Humanity’s Last ExamBrowseCompBrowseComp-ZH通用大模型（带工具）Qwen3-235B-A22B20.02.329.4DeepSeek-V3.129.830.049.2Claude-4-Sonnet20.312.229.1OpenAI-o320.249.758.1商业深度研究智能体Gemini Deep Research26.9--Kimi-Researcher26.9--OpenAI Deep Research26.651.5-开源深度研究智能体WebSailor-72B-2.030.1WebResearcher (Ours)WebResearcher-30B-A3B28.837.345.2WebResearcher-30B-A3B-heavy36.751.756.8关键洞察:• 在HLE基准上，WebResearcher-heavy取得了**36.7%**的准确率，比次优的DeepSeek-V3.1高出6.9个百分点，证明了其在处理需要深度学术知识合成的扩展研究任务中的卓越能力。• 在BrowseComp英文基准上，WebResearcher-heavy以**51.7%**的准确率与OpenAI Deep Research（51.5%）持平，同时远超所有开源替代方案（如DeepSeek-V3.1的30.0%），领先优势达21.7个百分点。• 在中文基准BrowseComp-ZH上，WebResearcher-heavy以**56.8%**的成绩逼近OpenAI-o3（58.1%），显著优于其他模型。3.2 复杂目标导向型网页任务在需要复杂多步推理的任务中，WebResearcher同样表现出色。模型/系统GAIAXbench-DeepSearchFrames通用大模型（带工具）Claude-4-Sonnet68.364.680.7OpenAI-o370.566.784.0DeepSeek-V3.163.171.283.7商业深度研究智能体OpenAI Deep Research67.0--WebResearcher (Ours)WebResearcher-30B-A3B72.871.084.8WebResearcher-30B-A3B-heavy75.773.085.1关键洞察:• 在GAIA基准上，WebResearcher-heavy达到**75.7%**的准确率，超越了包括Claude-4-Sonnet（68.3%）和OpenAI-o3（70.5%）在内的所有系统，显示了其在复杂工具调度和跨领域推理上的优越性。• 在Frames基准上，WebResearcher以**85.1%**的成绩超越了所有对比系统，证明了其在综合多源信息同时保持事实准确性和推理连贯性方面的强大能力。