2507.15061v1 WebShaper：用“集合论”给AI画逻辑蓝图，破解复杂信息检索难题

本文档概述了 WebShaper，一个旨在解决信息寻求（IS）智能体领域高质量训练数据稀缺问题的创新框架。传统的“信息驱动”数据合成方法，即先收集网络数据再生成问题，常导致信息结构与推理结构不一致、问答不匹配等问题。

WebShaper 提出了一种根本性的范式转变，采用“形式化驱动”的方法。该框架首先利用集合论对信息寻求任务进行系统性、数学化的形式化定义，然后以此为指导进行数据合成。其核心是**知识投影（Knowledge Projections, KP）**的概念，通过对 KP 的组合运算，可以精确控制生成任务的推理结构和复杂性。

数据合成过程始于构建种子任务，随后通过一个智能体扩展器（Agentic Expander）分层扩展策略，系统性地将简单问题演化为复杂问题，同时有效避免了冗余信息和推理捷径。

基于 WebShaper 数据集训练的智能体在 GAIA 和 WebWalkerQA 等关键基准测试中，取得了开源模型中的最佳性能。例如，基于 Qwen-2.5-72B 的 WebShaper 模型在 GAIA 上的得分超过 60 分，是唯一达到此水平的开源方法，其表现接近行业顶尖的闭源系统。这证明了形式化驱动的数据合成方法在激发大型语言模型深度研究能力方面的巨大潜力。

背景：信息寻求智能体数据合成的挑战

大型语言模型（LLM）驱动的智能体在解决复杂的开放式任务方面取得了革命性进展，而信息寻求（IS）是其认知自主性的核心能力。IS 智能体的开发通常遵循一个成熟的流程：构建任务轨迹、进行监督微调（SFT）以掌握基础技能，最后通过强化学习（RL）泛化决策能力。

整个开发流程的基石是高质量的 IS 任务训练数据。然而，由于任务的复杂性，高质量数据集的获取极为困难，通过众包方式构建成本高昂且效率低下。因此，通过精心设计的智能体流水线来合成训练数据成为主流方案。

现有的数据合成方法多采用“信息驱动”范式，其流程是：

1. 在网络上预先搜索并收集信息。

2. 将收集到的信息组织成结构化格式。

3. 利用 LLM 基于这些结构化数据生成自然语言问题。

这类方法旨在将信息结构映射到问题的推理结构中，但面临两大关键局限：

• 一致性问题：LLM 可能无法完全理解复杂的信息结构，导致生成的自然语言问题推理逻辑混乱，或与预期答案不符。

• 多样性与效率问题：无序的信息检索会导致过度的数据处理，并收集到大量同质化的信息结构，从而限制了任务的多样性和知识覆盖范围。

WebShaper：一种形式化驱动的数据合成新范式

为克服上述局限，WebShaper 提出了一种“形式化驱动”的数据合成范式。它首先建立任务的形式化表示，然后利用该形式化表示来系统性地指导整个数据合成过程，确保信息收集受到形式化任务需求的明确控制。

核心理念与优势

WebShaper 的核心在于其“先形式化，后合成”的理念，即将数据合成过程的重心从被动的信息组织转变为主动的任务规范。这种方法带来了三大优势：

1. 更广泛的任务覆盖：通过系统性地探索任务的形式化组合，能够合成更多样化的信息寻求模式，不受预检索内容的限制。

2. 任务可控性：形式化的参数允许精确指定任务的推理结构和复杂程度，实现了对生成数据质量和难度的精细控制。

3. 结构与答案的一致性：形式化表示具有内在的可解释性和可验证性，确保了合成数据在信息-推理结构以及问答对上具有高度一致性，减少了错误。

基于集合论的任务形式化

WebShaper 首次为信息寻求任务建立了基于集合论的形式化语言。

• 基本单元：知识投影 (Knowledge Projection, KP)

◦ 定义：对于一个实体子集 V 和一个关系 R，知识投影 R(V) 是指与 V 中实体存在 R 关系的所有实体的集合。例如，若 R 为 bornIn（出生于），则 R({90s}) 表示所有在 90 年代出生的人的集合。

• 核心操作

◦ R-并集 (R-Union, ∪)：用于处理条件不确定的情况。例如，一个在 2000-2010 年间效力的球员，其条件可以表示为 R({2000}) ∪ R({2001}) ∪ ... ∪ R({2010})。

◦ 交集 (Intersection, ∩)：用于处理需要同时满足多个条件的情况。例如，一个在 2000 年效力且出生于 90 年代的球员，其条件为 R1({2000}) ∩ R2({90s})。

通过这两种运算的递归组合，任何复杂的信息寻求任务 q(T) 都可以被形式化地表示为寻找一个目标实体集 T 的过程。

WebShaper 数据合成流程

WebShaper 的数据合成流程分为三个主要阶段，系统性地将简单的种子问题扩展为复杂且结构严谨的训练实例。

第一阶段：种子问题构建

为确保初始问题的多样性和非平凡性，流程首先从一个离线的维基百科数据库中构建种子问题。通过在保留了超链接的文章间进行随机游走，聚合内容并利用 LLM 生成初步的问答对。随后，通过一个严格的过滤流程，利用 WebDancer 框架对每个问题进行 5 次执行（rollout），只保留至少有一次能被正确回答的问题。最终构建了 18,000 个高质量的种子问题。

第二阶段：智能体扩展

此阶段的目标是通过 qn+1(T) = Expand(qn(T)) 的迭代过程，将种子问题逐步扩展为更复杂的形式化任务。这一过程由一个专门的**智能体扩展器（Agentic Expander）**驱动。

知识投影表示法 (KP Representation)

为了让智能体能够理解复杂的形式化任务，项目引入了一种 KP 表示法。该方法使用三元组 [X, r, S] 来表示一个知识投影 R(S)，其中 X 是变量，r 是关系名称，S 可以是变量或常量。通过引入变量，该表示法能将递归结构“扁平化”为一系列 KP 的交集，从而清晰地表示复杂的逻辑链条。

分层扩展策略 (Layer-wise Expansion Strategy)

这是 WebShaper 的一项关键创新，旨在避免传统方法中常见的冗余和推理捷径问题。

• 冗余问题：指问题中包含对推理链无贡献的信息，例如“柏林迪纳摩是位于柏林的足球俱乐部”。

• 推理捷捷问题：指存在可以直接从已知常量推导出最终答案的路径，导致模型可以绕过复杂的推理链。

分层扩展策略将一个形式化问题视为一个图，其中节点是变量和常量。在每一步扩展中，扩展器会识别出图中所有的叶子常量节点，并选择其中一个，将其转化为一个变量节点，并围绕这个新变量构建一个子问题。这个过程确保了推理链的深度和复杂性逐层增加，从根本上杜绝了上述两个问题。

扩展器智能体 (Expander Agent)

扩展器本身是一个基于 ReAct 框架的自主智能体，配备了三种专用工具：

1. Search：调用谷歌搜索，可根据时间进行过滤，返回相关网页的 URL 和摘要。

2. Summarize：访问多个 URL 并整合内容，是实现 R-并集操作的关键。

3. Validate：在生成子问题后，调用另一个 LLM (QwQ) 进行验证，确保：(1) 子问题与原始常量在形式化逻辑上一致；(2) 子问题不能被 LLM 直接回答，以保证其复杂性。

第三阶段：轨迹构建与智能体训练

在生成了足量的扩展问题后，进入轨迹构建和模型训练阶段。

1. 轨迹构建：使用一个配备 Search 和 Visit 工具的智能体，为每个问题执行 5 次任务（rollouts），以生成完整的解决路径。

2. 数据过滤：对生成的轨迹进行严格筛选，移除答案错误、工具调用失败、或包含幻觉及严重重复的轨迹，最终得到 5,000 条高质量的轨迹用于训练。

3. 智能体训练：采用两阶段训练策略：

◦ 监督微调 (SFT)：在 5,000 条轨迹上进行监督微调，让模型学习基础的工具使用和推理模式。

◦ 强化学习 (RL)：在 SFT 模型的基础上，使用 GRPO 算法进行强化学习，进一步优化模型的决策和信息寻求策略。

实验结果与分析

WebShaper 在多个维度上都展示了其卓越的性能和设计优势。

主要成果：在基准测试中达到SOTA水平

实验结果表明，使用 WebShaper 数据集训练的模型在 GAIA 和 WebWalkerQA 两个权威基准上均达到了开源模型中的最佳性能。

• 性能领先：WebShaper 训练的 Qwen-2.5-72B 模型在 GAIA 上的平均分达到 60.19，是目前唯一得分超过 60 的开源方法，显著优于 WebSailor (55.4) 和 WebDancer (51.5) 等其他先进方法。

• 通用性强：在不同的模型底座上（Qwen-2.5-32B/72B, QwQ-32B），WebShaper 均能带来最佳性能，证明了其合成数据的普适性和有效性。

数据集对比分析

为验证 WebShaper 数据集的优越性，实验在相同模型底座上，分别使用 WebShaper 和其他数据集（WebWalkerQA, E2HQA, MHQA）进行 SFT 训练。

模型底座

训练数据集

GAIA 平均分

QwQ-32B

WebShaper

53.3

WebWalkerQA

45.6

E2HQA

45.6

MHQA

41.7

Qwen-2.5-32B

WebShaper

43.6

E2HQA

39.8

MHQA

35.9

WebWalkerQA

32.0

结果清晰地表明，在所有模型架构上，使用 WebShaper 训练的模型性能均显著优于使用其他数据集训练的模型。

关键设计验证

• 强化学习的有效性：RL 训练在 SFT 的基础上带来了显著的性能提升。在 GAIA 基准上，Qwen-2.5-72B 模型的得分从 46.6 提升到 60.1（+13.5），证明 RL 对于激发模型深度信息寻求能力至关重要。

• 形式化语言的优越性：与使用自然语言进行问题扩展的变体相比，基于形式化语言的合成方法在所有模型底座上都取得了更优的性能。这表明形式化能够减少合成过程中的错误传播，产出更一致和精确的问答对。

• 分层扩展策略的价值：实验证明，分层扩展结构优于顺序扩展结构。这证实了该策略能有效缓解冗余和推理捷径问题，通过可控的结构设计提升了最终性能。

数据集特征分析

• 领域分布：WebShaper 数据集覆盖了体育、学术、政治、娱乐等多个领域，分布均衡，有助于训练领域无关的通用 IS 智能体。

• 工具调用复杂性：分析显示，解决 WebShaper 中的任务需要更多的工具调用（Search 和 Visit）。其工具调用次数的分布呈现出明显的长尾特征，表明 WebShaper 包含大量需要复杂、多步推理才能解决的任务，远超其他数据集。

结论

WebShaper 提出了一种从“信息驱动”到“形式化驱动”的范式转变，为信息寻求智能体的训练数据合成提供了开创性的框架。通过引入基于集合论的数学形式化、系统性的分层扩展策略以及自主的智能体扩展器，该框架解决了现有方法在一致性、可控性和多样性方面的核心痛点。

实验结果有力地证明，由 WebShaper 合成的数据能够训练出在多个基准上达到开源 SOTA 水平的智能体，其性能表现逼近顶尖的闭源系统。这不仅验证了该方法的有效性，也为未来智能体能力的提升开辟了新的道路，即从被动地组织信息转向主动地、有原则地设计和规范任务。