

2601.12538 智能体推理的演进路线
AI学会自己管理长期记忆
2510.26493 AI的上下文工程进化史这篇文章通过提出上下文工程(Context Engineering)的理论框架,系统地回顾了人机交互二十年来的演变进程,并将其划分为从原始计算到超人类智能的四个发展阶段。作者认为,上下文工程的本质是通过优化信息的采集、存储与利用来降低人机交互成本,从而实现从被动执行到主动协作的转变。文中详细探讨了长短期记忆转换、上下文抽象化以及跨系统信息共享等现代技术实践,旨在解决海量信息下的处理效能衰减与系统不稳定性。该研究的最终目标是为未来具备人类水平推理能力的智能体设计提供指导,探索如何通过数字语境的持久演化来实现真正的人机共生。
AI团队两周出原型为何不靠谱
2510.20345 LLM颠覆知识图谱构建范式这份研究综述探讨了大型语言模型(LLMs)如何彻底改变知识图谱(KG)的构建方式,标志着从传统的统计规则向生成式架构的范式转移。文章系统地审视了大型模型如何重塑本体工程、知识抽取与融合的核心流程,并对比了注重结构规范的模式驱动(Schema-based)与注重灵活发现的无模式驱动(Schema-free)两种新兴范式。通过总结当前的技术机制与挑战,该综述旨在融合符号逻辑与神经语义理解,从而推动构建更具可解释性与适应性的智能知识系统。最后,作者前瞻性地提出了知识图谱在助力智能体系统和多模态理解等领域的未来发展方向。
2511.02817 顶尖AI读不懂长文,准确率不到50这项研究推出了名为 Oolong 的全新评测基准,旨在解决当前人工智能在处理长文本时仅能简单检索信息而无法进行深度分析的局限。该基准要求模型不仅要对长篇文章中的细微片段进行原子级分析,还需具备跨文本的聚合推理能力,以便回答涉及全局统计、时间演变及用户关系的复杂问题。研究者通过合成任务与真实对话数据进行测试,发现即便是目前最顶尖的旗舰模型,在面对这种高难度的长上下文推理挑战时,准确率也普遍低于 50%。这项工作的核心意义在于通过发布开源工具,推动模型从单纯的“信息拾取”向真正的大规模语境理解演进。
2601.03220 从熵到表观性-重新定义信息价值这篇名为《从熵到表外性:为计算受限智能重新思考信息》的论文提出了一种新的信息量化方法,名为表外性 (epiplexity),旨在解决传统香农信息论和柯尔莫哥洛夫复杂度在衡量计算受限观察者可学习信息时的不足。作者指出,传统理论假设了无限的计算能力,导致其无法捕捉到数据中有用且可构建的内容,而表外性则专门量化数据中的结构内容。通过引入这一概念,论文挑战了信息论中信息量不能通过确定性转换增加等悖论,并展示了计算如何创造信息、信息如何依赖于数据排序,以及该度量如何能实际应用于数据选择以提高机器学习系统的泛化能力。
2503.14858 深度网络让机器人学会弹墙这份研究探讨了在自我监督强化学习 (self-supervised Reinforcement Learning, RL) 中扩展深度神经网络的潜力,旨在弥补 RL 领域相比语言和视觉领域在模型扩展性上的差距。作者通过将网络深度从传统的 2-5 层扩展至 1024 层,结合对比强化学习 (Contrastive RL, CRL) 算法和残差连接等架构技巧,在无人监管的目标导向任务中实现了显著的性能提升,性能增益高达 2 倍至 50 倍。关键发现是,增加模型深度不仅提高了任务成功率,还促使学习到的行为发生了质的改变,并且深度扩展比宽度扩展更为有效,同时还能解锁更大批量大小训练的优势。这项工作证明了通过系统性地扩展网络深度,可以为 RL 系统带来新的目标达成能力。
角色扮演第一AI已走向智能体State of AI: An Empirical 100 Trillion Token Study with OpenRouter 这份来自 OpenRouter 的研究报告对超过 100 万亿令牌的真实大规模语言模型(LLM)交互数据进行了深入的实证分析。报告的核心目的是描绘 LLM 在实际应用中的演变和使用模式,特别是自从引入了第一个广泛采用的 多步骤推理论证模型 o1 以来,领域已从简单的文本生成转向更复杂的智能体推理。关键发现包括开源模型(特别是中国开发的模型)的显著采用、编程协助和创意角色扮演成为主导的使用类别,以及一种被称为“灰姑娘玻璃鞋效应”的现象,即早期用户群与模型需求的完美契合带来了持久的留存率。总而言之,该研究揭示了实际 LLM 使用的复杂性、竞争激烈的市场格局,并强调了模型能力(而非仅仅成本)对用户行为和市场分化的决定性影响。
2512.13564v1 AI 代理时代的记忆该文本是对大型语言模型(LLM)驱动的智能体中记忆研究进行的一次全面而及时的调研,旨在解决该领域日益碎片化的问题。作者提出了一个统一的框架,通过形式、功能和动态三个核心视角来系统地分析现有的智能体记忆系统。在形式上,文章区分了Token级、参数和潜在记忆;在功能上,它提出了一个超越传统分类的细粒度分类法,包括事实记忆、经验记忆和工作记忆;而动态视角则关注记忆的形成、演化和检索过程。最终,这项工作不仅整理了现有资源和评估基准,还展望了包括强化学习集成、多模态记忆和可信赖性(如隐私和可解释性)等在内的前沿研究方向,期望将记忆确立为未来智能体设计中的核心原语。
2509.13309v1 拆解WebResearcher的“迭代式研究”范式(IterResearch)本文档概述了由阿里巴巴集团通义实验室开发的WebResearcher框架,这是一个旨在解决长时程AI智能体(Long-Horizon Agents)推理能力瓶颈的新型系统。该框架的核心贡献在于提出了一种名为IterResearch的迭代式深度研究范式,它将研究过程重构为马尔可夫决策过程(MDP),通过周期性地整合发现、重构工作空间来克服现有“单上下文范式”(mono-contextual paradigm)普遍存在的上下文窒息和噪声污染问题。为解决训练数据稀缺的挑战,该框架引入了WebFrontier,一个可扩展的数据合成引擎,利用工具增强的语言模型系统性地生成高质量、高复杂度的研究任务。在推理阶段,WebResearcher采用研究-综合框架(Research-Synthesis Framework),通过并行多智能体探索和后续的综合分析,有效利用测试时扩展(test-time scaling)来提升结论的全面性和鲁棒性。在6个极具挑战性的基准测试中,WebResearcher展现了顶尖性能,其表现在多个关键指标上不仅超越了所有开源模型,甚至优于顶级的专有系统。例如,在“人类最后一场考试”(Humanity's Last Exam, HLE)基准上,WebResearcher-heavy版本取得了**36.7%**的准确率,显著高于DeepSeek-V3.1(29.8%)和OpenAI Deep Research(26.6%)。这些成果验证了迭代式综合范式在处理复杂研究任务时的根本性优势。--------------------------------------------------------------------------------1. 背景:从被动知识到主动构建传统的人工智能发展路径侧重于通过扩展模型规模来积累海量的被动知识。然而,这种方法存在一个关键局限:模型虽能记忆和回忆信息,却难以主动地从外部来源发现、验证和合成新知识。这一局限催生了向主动自治智能体系统的范式转变,这些系统模仿人类研究工作流,能够动态地分解复杂问题、调用工具并整合信息。尽管以OpenAI的Deep Research为代表的专有系统和众多开源项目(如WebThinker, WebSailor)取得了显著进展,但它们普遍采用一种单上下文范式。该范式将所有检索到的信息和中间推理步骤线性地累积到一个不断扩展的上下文中。这种策略存在两个致命缺陷:1. 认知工作空间窒息 (Cognitive Workspace Suffocation):随着上下文窗口被累积的数据填满,模型用于深度思考的“工作空间”被严重挤占,导致其推理能力下降,并可能被迫在信息不充分时得出结论。2. 不可逆的噪声污染 (Irreversible Noise Contamination):缺乏有效筛选机制,导致早期不相关的信息和错误判断会持续存在于整个研究过程中,稀释了有效信号,并使偏差不断累积放大。这些缺陷形成了一个悖论:智能体为解决复杂问题收集的信息越多,其处理和推理这些信息的能力反而越弱。2. WebResearcher框架核心组件WebResearcher通过三大核心组件系统性地解决了上述挑战。2.1 IterResearch:迭代式深度研究范式为克服单上下文范式的局限,WebResearcher提出了IterResearch,一种将深度研究重构为马尔可夫决策过程(MDP)的迭代式范式。其核心思想是用迭代综合与重构取代线性累积。该范式将研究过程分解为离散的回合(round)。在每个回合中,智能体的状态仅包含三个核心要素:• 原始研究问题 (Question)• 不断演进的报告 (Report):综合了之前所有回合的发现和当前进展,作为智能体的核心记忆。• 最近一次的工具交互 (Action and Tool Response)为指导每个回合的决策,智能体生成三类结构化元信息:• Think (思考):作为智能体的认知草稿,用于分析当前状态、评估进展和规划下一步行动。这部分内容仅用于当前回合,不会进入下一回合的上下文,以防信息冗杂。• Report (报告):范式的核心。智能体将新发现与已有知识综合,生成一个高密度、连贯的摘要。这份更新后的报告是构建下一回合工作空间的主要依据。• Action (行动):智能体的具体操作,分为两种:◦ 工具调用 (Tool Call):与外部环境(如搜索引擎、代码解释器)交互以获取新信息。◦ 最终答案 (Final Answer):当智能体判断已收集到足够证据时,输出最终结论并终止研究。通过这种方式,IterResearch确保了工作空间的大小保持恒定,无论研究进行多少回合,都能维持完整的推理能力。周期性的报告综合起到了智能过滤器的作用,保留有效信号、剔除噪声,并允许智能体通过修正报告来纠正早期错误,从而实现了理论上无上限的研究深度。两种范式的对比特性单上下文范式 (Mono-contextual Paradigm)IterResearch 迭代范式信息处理线性累积所有信息迭代式综合与重构工作空间不断膨胀,受上下文长度限制保持精简、专注,大小恒定核心问题上下文窒息、噪声污染、性能随步数增加而下降避免信息过载,持续过滤噪声,维持高质量推理错误处理早期错误难以纠正,会持续影响后续步骤可通过修正报告来恢复和纠正错误研究深度受限于上下文长度理论上无上限2.2 WebFrontier:可扩展的数据合成引擎为了解决训练高级智能体所需的高质量数据稀缺的问题,框架引入了WebFrontier数据引擎。该引擎通过一个三阶段的迭代工作流,利用多智能体协作来系统性地生成高复杂度、事实准确且可验证的训练任务。1. 阶段一:种子数据生成 (Seed Data Generation)◦ 从网页、学术论文等多源语料库中提取信息密集的文本块。◦ 通过组合相关文本块形成复合单元,并由一个ItemWriter Agent生成需要综合多源信息的初始问答(QA)对。2. 阶段二:迭代式复杂度提升 (Iterative Complexity Escalation)◦ ItemWriter Agent被赋予网页搜索、学术搜索、浏览器和Python解释器等工具。◦ 通过知识扩展(查询外部来源)、概念抽象(提炼高阶原则)、事实 grounding(多源交叉验证)和计算化构建(设计需要计算或仿真的问题)四种操作,迭代地提升问答对的认知复杂度和范围。3. 阶段三:严格的质量控制 (Rigorous Quality Control)◦ 一个无工具的QuestionSolver Agent首先尝试回答问题,能被轻易解决的简单QA对被过滤掉。◦ 一个配备工具的QuestionSolver Agent(模拟目标模型能力)再次尝试回答。成功解决的被保留为高质量训练数据,失败的则被标记为过难或有缺陷并被丢弃。◦ Judge Agent和SimilarityScorer Agent分别负责自动评估答案的正确性和过滤语义重复的数据。2.3 研究-综合框架:利用测试时扩展为了在推理时进一步提升性能,WebResearcher引入了研究-综合框架(Research-Synthesis Framework)。该框架通过并行化探索来充分利用测试时计算资源。1. 并行研究 (Parallel Research):部署 n 个Research Agents,每个智能体都遵循IterResearch范式独立解决同一个问题。由于每个智能体可能采用不同的工具和推理路径,最终会产出 n 组不同的最终报告和预测答案。2. 综合集成 (Integrative Synthesis):一个Synthesis Agent(实验中使用Qwen3-235B-A22B)接收来自所有Research Agents的最终报告和答案,并综合这些多样化的发现,生成一个更全面、更鲁棒的最终结论。由于IterResearch生成的报告高度浓缩了整个推理路径,Synthesis Agent可以在有限的上下文中评估更多样的解题策略,从而高效地利用测试时扩展。3. 实验结果与性能WebResearcher在6个涵盖复杂推理、网页导航和长时程信息检索的基准测试中进行了全面评估,其性能表现优异。3.1 综合网页导航与推理基准在通用网页导航和推理任务中,WebResearcher的优势尤为明显。模型/系统Humanity’s Last ExamBrowseCompBrowseComp-ZH通用大模型(带工具)Qwen3-235B-A22B20.02.329.4DeepSeek-V3.129.830.049.2Claude-4-Sonnet20.312.229.1OpenAI-o320.249.758.1商业深度研究智能体Gemini Deep Research26.9--Kimi-Researcher26.9--OpenAI Deep Research26.651.5-开源深度研究智能体WebSailor-72B-2.030.1WebResearcher (Ours)WebResearcher-30B-A3B28.837.345.2WebResearcher-30B-A3B-heavy36.751.756.8关键洞察:• 在HLE基准上,WebResearcher-heavy取得了**36.7%**的准确率,比次优的DeepSeek-V3.1高出6.9个百分点,证明了其在处理需要深度学术知识合成的扩展研究任务中的卓越能力。• 在BrowseComp英文基准上,WebResearcher-heavy以**51.7%**的准确率与OpenAI Deep Research(51.5%)持平,同时远超所有开源替代方案(如DeepSeek-V3.1的30.0%),领先优势达21.7个百分点。• 在中文基准BrowseComp-ZH上,WebResearcher-heavy以**56.8%**的成绩逼近OpenAI-o3(58.1%),显著优于其他模型。3.2 复杂目标导向型网页任务在需要复杂多步推理的任务中,WebResearcher同样表现出色。模型/系统GAIAXbench-DeepSearchFrames通用大模型(带工具)Claude-4-Sonnet68.364.680.7OpenAI-o370.566.784.0DeepSeek-V3.163.171.283.7商业深度研究智能体OpenAI Deep Research67.0--WebResearcher (Ours)WebResearcher-30B-A3B72.871.084.8WebResearcher-30B-A3B-heavy75.773.085.1关键洞察:• 在GAIA基准上,WebResearcher-heavy达到**75.7%**的准确率,超越了包括Claude-4-Sonnet(68.3%)和OpenAI-o3(70.5%)在内的所有系统,显示了其在复杂工具调度和跨领域推理上的优越性。• 在Frames基准上,WebResearcher以**85.1%**的成绩超越了所有对比系统,证明了其在综合多源信息同时保持事实准确性和推理连贯性方面的强大能力。
2509.13311v1 AgentFounder如何用“智能体持续预训练”(Agentic_CPT)实现深度研究能力大型语言模型(LLM)在进化为能够自主使用工具并解决复杂问题的智能体系统时,面临一个根本性的训练瓶颈。传统的后训练方法(如监督微调和强化学习)在应用于通用基础模型时表现不佳,因为这些模型被迫同时学习智能体行为并与专家演示对齐,从而产生了根本性的“优化冲突”。为了解决这一问题,一份题为《通过持续预训练扩展智能体》的研究报告首次提出了一个创新的训练范式——智能体持续预训练(Agentic Continual Pre-training, Agentic CPT)。该方法在传统的预训练和后训练之间增加了一个中间阶段,旨在构建一个预对齐的智能体基础模型。这个基础模型天生就具备了智能体行为所需的归纳偏置,从而显著提升了下游微调的效率和效果。基于这一方法,研究团队开发了一款名为 AgentFounder 的深度研究智能体模型。该模型通过两种系统性、可扩展且无需调用外部API的离线数据合成方法——一阶行动合成(FAS)高阶行动合成(HAS)——进行训练。实验结果表明,AgentFounder-30B 模型在10个基准测试中取得了当前最佳(SOTA)性能,其表现不仅超越了所有开源深度研究智能体,甚至在部分任务上优于顶尖的商业闭源模型。关键性能指标包括在 BrowseComp-en 上达到 39.9% 的准确率,在 HLE 基准上达到 31.5% 的Pass@1,成为首个突破30分大关的开源模型。这些发现证明,Agentic CPT是构建强大智能体基础模型的有效途径,为智能体能力的扩展开辟了新的方向。核心论点:智能体对齐的范式转变该研究重新定义了语言模型的对齐概念,提出了智能体对齐(agentic alignment)。这要求模型在动态环境中解决复杂任务时,其行为(包括推理链、工具调用和对环境变化的适应性反应)必须与人类专家的演示保持一致。当前开源智能体模型性能普遍落后的根本原因被确定为:它们大多建立在通用目的的基础模型之上,这些模型缺乏智能体归纳偏置。因此,在后训练阶段,模型面临着双重负担:既要学习多样的智能体能力,又要与有限的专家轨迹对齐。这种双重任务导致了优化冲突,限制了模型发展灵活决策能力,使其倾向于模仿特定的行为模式而非真正理解任务。Agentic CPT 正是为解决这一核心矛盾而提出的范式转变。它作为一个介于通用预训练和特定任务后训练之间的中间扩展层,其核心目标是交付一个已经具备智能体行为基础的“预对齐智能体基础模型”,从而使后续的微调过程能更专注于高级策略和对齐,而非从零开始学习基础的智能体能力。AgentFounder模型:一种系统性训练方法AgentFounder 是基于 Agentic CPT 理念构建的深度研究智能体,它采用了一套创新的训练流程和数据合成方法。创新的三阶段训练流程研究报告对传统的两阶段(预训练 -> 后训练)LLM开发流程进行了根本性重塑,集成 Agentic CPT 形成了一个增强的三阶段流程:1. 通用预训练:模型从海量通用数据中学习广泛的知识,此阶段使用 Qwen3 系列模型作为基础。2. 智能体持续预训练 (Agentic CPT):这是新增的核心阶段,旨在向模型注入智能体能力。该阶段本身又分为两个步骤:◦ 阶段一:使用约2000亿个Token的智能体数据和知识推理语料,在32K上下文长度下进行训练,使模型初步掌握工具调用模式和多步推理链。◦ 阶段二:使用1000亿个精心筛选的高质量智能体数据,将上下文长度扩展至128K,使模型能够理解复杂的行动空间和长远规划策略。3. 后训练(微调):使用通用指令数据和智能体轨迹演示的混合数据进行监督微调,以进一步解锁基础模型的能力并使其与特定任务对齐。可扩展的离线数据合成方法AgentFounder 成功的关键在于其系统性且可大规模生成的离线数据合成方法,该方法无需实际调用工具或产生API成本。一阶行动合成 (First-order Action Synthesis - FAS)FAS 旨在生成大量的 (问题, 规划, 行动) 数据元组,完全不依赖监督信号。• 知识到问题的转化:首先,通过从网页文本、历史搜索结果等多种来源收集数据,构建一个以实体为索引的“实体锚定开放世界知识记忆库”。随后,通过对实体及其关联知识进行采样,自动合成涵盖事实检索、数值计算、多跳推理等多种类型的复杂问题。这种方法比传统的知识图谱方法更灵活,能够生成更可靠和新颖的问题。• 规划行动合成:针对生成的问题,利用LLM生成多个不同的问题分析以及对应的第一步行动预测(工具调用或直接回答)。这种方法不仅避免了实际API调用成本,还通过多样的分析视角有效扩展了模型的行动空间探索。• 推理行动合成:为了提升模型在信息充足后进行逻辑推理和综合的能力,FAS设计了一个两步方案。首先,让模型将问题分解并根据内部知识进行初步回答;然后,提供解决该问题所需的所有知识,要求模型修正逻辑错误并生成最终答案。• 质量控制:所有FAS生成的数据都通过一个基于“LLM即评判者”的拒绝采样机制进行筛选,以确保数据质量。高阶行动合成 (Higher-order Action Synthesis - HAS)HAS 旨在有效复用后训练阶段产生的大量次优轨迹数据,将它们转化为有价值的训练信号。• 核心思想:将学习目标从模仿完整的轨迹转变为学习步进式决策。• 实现方法:1. 步级扩展:对于一个已有轨迹的每一步,利用LLM在不执行工具的情况下生成N个备选的“思考和调用”方案。2. 对比决策合成:将原始轨迹与扩展的备选方案重构成一个多选项的决策过程。训练数据会明确展示在每一步面临多个选项时,模型选择了哪一个,以及该选择最终是否导向了成功的任务结果。这种方法将原本被丢弃的轨迹数据转化为丰富的训练信号,显著提升了样本效率。关键实验结果与发现AgentFounder-30B 在一系列全面的实验中展示了其卓越的性能和 Agentic CPT 方法的有效性。卓越的性能表现AgentFounder-30B 在10个通用及特定场景的网页搜索基准测试中,全面超越了现有的开源深度研究智能体,并在多个指标上达到了新的SOTA水平。基准测试 (Benchmark)AgentFounder-30BDeepSeek-V3.1GLM-4.5OpenAI Deep ResearchBrowseComp-en39.9%30.0%26.4%51.5%BrowseComp-zh43.3%49.2%37.5%-GAIA72.8%63.1%66.0%67.0%HLE (Pass@1)31.5%29.8%21.2%26.6%AcademicBrowse75.3%65.0%55.6%-DeepResearch Bench47.9%35.4%39.2%46.5%Frames89.6%83.7%78.9%-SEAL-043.9%42.6%34.2%-• SOTA性能:AgentFounder-30B 在 BrowseComp-en、GAIA、HLE、Academic Browse、DeepResearch Bench、Frames 和 SEAL-0 等多个基准上取得了最佳性能。• 里程碑式突破:在极具挑战性的 HLE 基准上,AgentFounder-30B 成为首个得分超过30分的开源模型,其 31.5% 的成绩甚至超过了所有已报告的闭源研究产品。• 强大的学术研究能力:在 Academic Browse 上的 75.3% 得分,证明了其作为学术助理的巨大价值。Agentic CPT的普适有效性实验证明,经过 Agentic CPT 训练的 AgentFounder-Base 模型能够为不同类型的后训练方法提供一个更优的起点。无论使用哪种监督微调数据集(SFT-A、SFT-B 或 SFT-C),基于 AgentFounder-Base 进行微调的模型性能始终显著优于从通用基础模型(Qwen3-30B-A3B-Base)开始微调的模型,平均性能提升分别达到 5.75%、6.13% 和 6.45%。这证实了 Agentic CPT 的普适有效性。训练策略与数据类型的有效性• 两阶段训练策略:实验证明,包含长上下文训练的第二阶段至关重要。与仅使用第一阶段训练相比,完整的两阶段训练在 Pass@1 和 Pass@3 指标上分别带来了平均 3.3% 和 3.7% 的性能提升。• 数据类型贡献:FAS 和 HAS 两种数据类型均对模型性能有积极贡献。单独使用 FAS 数据即可带来显著提升,而加入 HAS 数据则能提供互补的优势,进一步优化性能。明确的扩展定律该研究验证了智能体能力存在明确的扩展定律(Scaling Laws)。• 模型规模:随着模型参数从1B增加到30B,智能体的平均准确率从20.4%提升至48.9%。值得注意的是,AgentFounder-30B 的性能(48.9%)超越了更大规模的基线模型,显示出更高的扩展效率。• 数据规模:随着训练数据量从0增加到3150亿个Token,模型性能呈现出稳定的对数增长关系,总增益达到8.0%。这证明了 Agentic CPT 方法的鲁棒性和可扩展性。训练效率与通用工具使用能力的提升• 训练效率:AgentFounder 模型在下游任务微调时,其训练损失显著低于基线模型。这表明 Agentic CPT 成功地为模型注入了基础智能体能力,缓解了微调阶段的“双重负担”,使训练过程更高效。• 通用工具使用:在评估通用工具使用能力的 ACEBench 基准测试中,AgentFounder-30B 的表现优于其基础模型 Qwen3-30B-A3B。这表明 Agentic CPT 框架不仅适用于深度研究任务,还具备向更广泛的通用智能体场景迁移的潜力。结论该研究工作通过引入**智能体持续预训练(Agentic CPT)**这一新范式,为深度研究智能体的训练提供了根本性的改进。通过系统性的离线数据合成方法(FAS和HAS)和渐进式的两阶段训练策略,成功构建了 AgentFounder-30B 模型。该模型在多个权威基准测试中树立了新的性能标杆,有力地证明了在后训练之前构建一个预对齐的智能体基础模型是扩展大型语言模型能力、解决复杂问题的关键一步。
2509.13310v1 AgentScaler:如何用“环境扩展”策略,让AI“能聊”更“能干”该研究旨在通过系统性地扩展训练环境,推进大型语言模型(LLM)的通用智能体智能(General Agentic Intelligence),特别是其函数调用(Function Calling)能力。当前该领域的核心瓶颈在于高质量“智能体数据”(即由自主智能体与环境交互生成的轨迹)的稀缺性。 为应对此挑战,研究提出了一种名为 AgentScaler 的方法,其核心是一个两阶段流水线: 1. 系统化的环境构建与扩展:该阶段通过一个创新框架自动化地构建多样化、完全模拟的交互环境。此框架将函数调用抽象为对底层数据库的读写操作,通过收集超过3万个真实API、构建工具依赖图、并将其程序化为可执行代码,实现了可扩展且可验证的环境生成。 2. 智能体经验学习:在此阶段,模型通过与模拟环境的交互来学习。首先,通过模拟的“人机交互”收集智能体经验轨迹,并采用一个严格的三阶段漏斗式框架进行过滤,确保数据质量。随后,采用一种两阶段微调策略:第一阶段在通用领域中训练模型掌握基础工具使用技能;第二阶段则在垂直领域中进行专门训练,以优化其在特定场景下的表现。 基于该流水线训练的 AgentScaler 模型家族(基于Qwen3系列),在多个权威智能体基准测试(τ-bench, τ2-Bench, ACEBench)中展现了卓越性能。AgentScaler-30B-A3B 模型在参数量远小于万亿级别模型的情况下,性能达到了业界顶尖水平,甚至可与部分闭源模型媲美。AgentScaler-4B 等小型模型也取得了与30B级别模型相当的性能,凸显了在紧凑型模型中培养高级智能体能力的巨大潜力。研究还深入分析了模型的泛化能力、稳定性及长程工具调用等关键问题,为开发通用智能体智能提供了重要见解。 核心挑战与解决方案 挑战:智能体数据的稀缺性 大型语言模型在实际应用中的智能体能力,根本上受限于“智能体数据”的匮乏。这些数据是模型通过与环境进行工具调用交互而产生的轨迹。以往的合成数据生成方法存在局限性: • 逆向范式:从函数调用反向生成用户查询,可能导致轨迹的真实性不足。 • 前向范式:基于高层用户意图进行模拟人机交互,但由于环境构建依赖人工干预,难以大规模部署和扩展。 解决方案:AgentScaler的双阶段框架 为解决上述挑战,该研究提出了一套 principled(有原则的)双阶段流水线,旨在通过系统性地扩展环境来提升通用智能体智能。 1. 全模拟环境构建与扩展:负责建立和扩展多样化的智能体场景。 2. 智能体经验学习:利用这些环境来培养模型的泛化智能。 第一阶段:系统化的环境构建与扩展 设计原则:将环境抽象为可读写数据库 该框架的核心设计原则是,任何函数调用本质上都可以被解释为对一个底层环境数据库 D 的读写操作。 • 读操作 (read):查询数据库,如检索、检查、监控。 • 写操作 (write):改变数据库状态,如修改、生成、驱动。 基于此,工具响应等同于在数据库 D 上执行相应操作。同一领域的工具通常具有相似的读写模式,可共享一个通用的数据库模式(schema)。因此,环境构建问题简化为将工具空间划分为不同领域,并为每个领域定义一个数据库模式。 自动化构建流程 研究团队设计了一个系统化的流程来自动化构建环境: 步骤 描述 规模与细节 场景收集 (Scenario Collection) 从多个来源收集大量真实世界的API,并进行严格筛选和重写,以确保质量和规格清晰。 收集超过 30,000 个API,构建了一个可靠的API池。 工具依赖图建模 (Tool Dependency Graph Modeling) 将工具作为节点,基于函数参数的向量余弦相似度构建边,形成工具图。随后采用Louvain社区检测算法将图聚类,形成不同的“领域”。最后使用LLM进一步优化图的边准确性。 共划分出超过 1,000 个领域。 函数模式的程序化实现 (Function Schema Programmatic Materialization) 对每个领域内的所有工具参数进行分析,生成一个领域专属的数据库结构。然后,将每个工具形式化为可对该数据库进行读写操作的Python代码。 生成的数据库结构和代码经人工检查,与τ-bench等基准的官方实现高度一致。 智能体任务构建 在构建好的环境中,通过“前向模拟人机交互”的方式构造智能体任务,确保生成的轨迹具有可验证性。 1. 初始化环境状态:基于领域数据库模式,生成多样化的初始数据库状态。 2. 采样工具序列:在领域的工具依赖图上进行有向遍历,生成逻辑连贯的工具调用序列。 3. 执行与验证:为序列中的每一步生成参数并实际执行工具调用,直接操作数据库并持续追踪状态变化。这使得验证可以在两个层面进行: ◦ 数据库层面:状态一致性。 ◦ 工具序列层面:精确匹配。 第二阶段:智能体经验学习 经验收集:模拟人机交互 在构造好的智能体任务基础上,通过模拟人机交互来收集智能体经验。 • 交互设置:实例化一个模拟用户(负责完成总体意图)和一个任务智能体(利用领域工具满足用户需求)。 • 交互过程:两者持续互动,直到模拟用户认为任务完成。 • 数据产出:每次完整的交互都会产生一条智能体经验轨迹,用于后续模型训练。 严格的轨迹过滤漏斗 由于拥有任务的“黄金”工具序列、参数和最终环境状态,研究采用了一个三阶段漏斗式框架对收集到的轨迹进行严格过滤: 1. 有效性控制 (Validity Control):移除格式无效的交互轨迹,并使用n-gram过滤掉严重重复的推理片段。 2. 环境状态对齐 (Environment State Alignment):只保留那些交互后最终数据库状态与黄金状态相匹配的轨迹,从而验证“写操作”的有效性。 3. 函数调用精确匹配 (Function Calling Exact Match):这是最严格的过滤阶段。对于仅包含“读操作”的序列(这类操作不会改变状态),只有当其调用的工具和参数序列与黄金标准完全一致时,轨迹才会被保留。 值得注意的是,该框架不会过滤掉那些工具调用返回错误的轨迹。只要最终目标得以实现,这些包含中间失败的轨迹会被保留,这有助于提升模型的鲁棒性。 两阶段智能体微调策略 为了让模型有效学习智能体能力,研究采用了分阶段的学习框架: • 第一阶段:基础能力学习 ◦ 目标:让智能体掌握通用的工具使用和用户交互基础技能。 ◦ 方法:在覆盖广泛工具和任务的通用领域进行训练,重点培养模型调用函数的时机、方式以及整合工具输出以生成连贯响应的能力。 • 第二阶段:领域专业化 ◦ 目标:在特定垂直领域中进行精细化训练,使智能体能力与领域上下文对齐。 ◦ 方法:在目标领域的真实场景中进行训练,优化模型在选择工具、参数化调用以及生成精准、符合领域目标的响应方面的能力。 实验结果与性能评估 主要结果 AgentScaler模型家族在τ-bench、τ2-Bench和ACEBench-en三个主流智能体基准上与多种闭源和开源模型进行了比较。 模型类别 模型名称 τ-bench (Retail) τ-bench (Airline) τ2-Bench (Retail) τ2-Bench (Airline) ACEBench-en (Overall) 闭源模型 Gemini-2.5-pro 68.7 44.0 67.5 56.0 78.2 GPT-o3 70.4 52.0 80.2 64.8 78.2 开源模型 (>100B) Kimi-K2-1T-A32B 73.9 51.2 70.6 56.5 77.4 Deepseek-V3.1-671B 66.1 40.0 64.9 46.0 69.3 Qwen3-Thinking-235B 67.8 46.0 71.9 58.0 70.2 本文模型 AgentScaler-4B 64.3 54.0 62.3 56.0 65.9 AgentScaler-8B 50.4 42.0 58.8 44.0 67.4 AgentScaler-30B-A3B 70.4 54.0 70.2 60.0 75.7 基座模型 Qwen3-Thinking-4B 59.1 52.5 56.1 52.0 49.5 Qwen3-Thinking-30B-A3B 67.8 48.0 58.8 58.0 67.2 关键结论: • 性能领先:AgentScaler在参数量小于1T的开源模型中取得了新的SOTA(state-of-the-art)性能。 • 高效学习:AgentScaler-30B-A3B的性能与万亿参数级别的开源模型相当,在某些领域接近闭源模型,证明了该方法的效率。 • 小模型潜力:AgentScaler-4B以极少的参数量达到了与30B级别模型相当的性能,展示了在紧凑型模型上部署高级智能体能力的可行性。 消融研究:两阶段训练的有效性 在ACEBench-en上的消融实验证明,与基座模型(Qwen3-Thinking-30B-A3B)相比,**第一阶段(通用学习)和第二阶段(领域专业化)**的训练均能显著提升模型在所有子集上的性能。这验证了两阶段训练设计的有效性:通用基础学习对于建立工具使用能力至关重要,而后续的领域专业化则进一步巩固和情境化了这些能力。 深入分析 • 泛化能力:在训练分布之外的ACEBench-zh基准测试中,AgentScaler模型在所有规模上均持续优于其Qwen基座模型。特别是,AgentScaler-4B在智能体能力上的得分从6.7飙升至38.4,整体得分提升21.7分,展示了强大的知识迁移和泛化能力。 • 稳定性:通过pass@k指标评估,AgentScaler-30B-A3B的稳定性显著优于其基座模型。然而,随着k值的增加,所有模型的性能都呈明显下降趋势,表明现有LLM的稳定性仍是一个重大挑战。 • 长程工具调用:分析显示,任务中的工具调用次数与任务准确率之间存在明显的负相关关系。这意味着处理长链条的工具使用对于当前的智能体模型仍然是一个悬而未决的难题。 结论与局限性 核心贡献 该研究提出了一套用于通过系统性环境扩展和智能体经验学习来提升通用智能体智能的原则性流水线。通过将工具程序化为可与数据库交互的代码,该方法实现了大规模、可验证的智能体轨迹构建。基于此,两阶段的学习框架使AgentScaler模型家族在多个基准测试中取得了开源模型中的SOTA性能,显示出极高的效率和潜力。 局限性与未来方向 1. 缺乏强化学习 (Reinforcement Learning):尽管所构建的模拟环境提供了稳定和低延迟的反馈,非常适合RL优化,但目前工作中尚未集成RL。这是未来工作的重点方向。 2. 模型规模 (Model Scale):当前方法的验证仅限于30B规模的模型,尚未扩展到超过200B或万亿参数级别。尽管如此,研究者认为,在相对较小的模型中训练智能体能力具有重要意义,因为这些模型更易于部署到边缘设备,适用场景更广,响应速度更快。
2507.15061v1 WebShaper:用“集合论”给AI画逻辑蓝图,破解复杂信息检索难题本文档概述了 WebShaper,一个旨在解决信息寻求(IS)智能体领域高质量训练数据稀缺问题的创新框架。传统的“信息驱动”数据合成方法,即先收集网络数据再生成问题,常导致信息结构与推理结构不一致、问答不匹配等问题。 WebShaper 提出了一种根本性的范式转变,采用“形式化驱动”的方法。该框架首先利用集合论对信息寻求任务进行系统性、数学化的形式化定义,然后以此为指导进行数据合成。其核心是**知识投影(Knowledge Projections, KP)**的概念,通过对 KP 的组合运算,可以精确控制生成任务的推理结构和复杂性。 数据合成过程始于构建种子任务,随后通过一个智能体扩展器(Agentic Expander)分层扩展策略,系统性地将简单问题演化为复杂问题,同时有效避免了冗余信息和推理捷径。 基于 WebShaper 数据集训练的智能体在 GAIA 和 WebWalkerQA 等关键基准测试中,取得了开源模型中的最佳性能。例如,基于 Qwen-2.5-72B 的 WebShaper 模型在 GAIA 上的得分超过 60 分,是唯一达到此水平的开源方法,其表现接近行业顶尖的闭源系统。这证明了形式化驱动的数据合成方法在激发大型语言模型深度研究能力方面的巨大潜力。 背景:信息寻求智能体数据合成的挑战 大型语言模型(LLM)驱动的智能体在解决复杂的开放式任务方面取得了革命性进展,而信息寻求(IS)是其认知自主性的核心能力。IS 智能体的开发通常遵循一个成熟的流程:构建任务轨迹、进行监督微调(SFT)以掌握基础技能,最后通过强化学习(RL)泛化决策能力。 整个开发流程的基石是高质量的 IS 任务训练数据。然而,由于任务的复杂性,高质量数据集的获取极为困难,通过众包方式构建成本高昂且效率低下。因此,通过精心设计的智能体流水线来合成训练数据成为主流方案。 现有的数据合成方法多采用“信息驱动”范式,其流程是: 1. 在网络上预先搜索并收集信息。 2. 将收集到的信息组织成结构化格式。 3. 利用 LLM 基于这些结构化数据生成自然语言问题。 这类方法旨在将信息结构映射到问题的推理结构中,但面临两大关键局限: • 一致性问题:LLM 可能无法完全理解复杂的信息结构,导致生成的自然语言问题推理逻辑混乱,或与预期答案不符。 • 多样性与效率问题:无序的信息检索会导致过度的数据处理,并收集到大量同质化的信息结构,从而限制了任务的多样性和知识覆盖范围。 WebShaper:一种形式化驱动的数据合成新范式 为克服上述局限,WebShaper 提出了一种“形式化驱动”的数据合成范式。它首先建立任务的形式化表示,然后利用该形式化表示来系统性地指导整个数据合成过程,确保信息收集受到形式化任务需求的明确控制。 核心理念与优势 WebShaper 的核心在于其“先形式化,后合成”的理念,即将数据合成过程的重心从被动的信息组织转变为主动的任务规范。这种方法带来了三大优势: 1. 更广泛的任务覆盖:通过系统性地探索任务的形式化组合,能够合成更多样化的信息寻求模式,不受预检索内容的限制。 2. 任务可控性:形式化的参数允许精确指定任务的推理结构和复杂程度,实现了对生成数据质量和难度的精细控制。 3. 结构与答案的一致性:形式化表示具有内在的可解释性和可验证性,确保了合成数据在信息-推理结构以及问答对上具有高度一致性,减少了错误。 基于集合论的任务形式化 WebShaper 首次为信息寻求任务建立了基于集合论的形式化语言。 • 基本单元:知识投影 (Knowledge Projection, KP) ◦ 定义:对于一个实体子集 V 和一个关系 R,知识投影 R(V) 是指与 V 中实体存在 R 关系的所有实体的集合。例如,若 R 为 bornIn(出生于),则 R({90s}) 表示所有在 90 年代出生的人的集合。 • 核心操作 ◦ R-并集 (R-Union, ∪):用于处理条件不确定的情况。例如,一个在 2000-2010 年间效力的球员,其条件可以表示为 R({2000}) ∪ R({2001}) ∪ ... ∪ R({2010})。 ◦ 交集 (Intersection, ∩):用于处理需要同时满足多个条件的情况。例如,一个在 2000 年效力且出生于 90 年代的球员,其条件为 R1({2000}) ∩ R2({90s})。 通过这两种运算的递归组合,任何复杂的信息寻求任务 q(T) 都可以被形式化地表示为寻找一个目标实体集 T 的过程。 WebShaper 数据合成流程 WebShaper 的数据合成流程分为三个主要阶段,系统性地将简单的种子问题扩展为复杂且结构严谨的训练实例。 第一阶段:种子问题构建 为确保初始问题的多样性和非平凡性,流程首先从一个离线的维基百科数据库中构建种子问题。通过在保留了超链接的文章间进行随机游走,聚合内容并利用 LLM 生成初步的问答对。随后,通过一个严格的过滤流程,利用 WebDancer 框架对每个问题进行 5 次执行(rollout),只保留至少有一次能被正确回答的问题。最终构建了 18,000 个高质量的种子问题。 第二阶段:智能体扩展 此阶段的目标是通过 qn+1(T) = Expand(qn(T)) 的迭代过程,将种子问题逐步扩展为更复杂的形式化任务。这一过程由一个专门的**智能体扩展器(Agentic Expander)**驱动。 知识投影表示法 (KP Representation) 为了让智能体能够理解复杂的形式化任务,项目引入了一种 KP 表示法。该方法使用三元组 [X, r, S] 来表示一个知识投影 R(S),其中 X 是变量,r 是关系名称,S 可以是变量或常量。通过引入变量,该表示法能将递归结构“扁平化”为一系列 KP 的交集,从而清晰地表示复杂的逻辑链条。 分层扩展策略 (Layer-wise Expansion Strategy) 这是 WebShaper 的一项关键创新,旨在避免传统方法中常见的冗余和推理捷径问题。 • 冗余问题:指问题中包含对推理链无贡献的信息,例如“柏林迪纳摩是位于柏林的足球俱乐部”。 • 推理捷捷问题:指存在可以直接从已知常量推导出最终答案的路径,导致模型可以绕过复杂的推理链。 分层扩展策略将一个形式化问题视为一个图,其中节点是变量和常量。在每一步扩展中,扩展器会识别出图中所有的叶子常量节点,并选择其中一个,将其转化为一个变量节点,并围绕这个新变量构建一个子问题。这个过程确保了推理链的深度和复杂性逐层增加,从根本上杜绝了上述两个问题。 扩展器智能体 (Expander Agent) 扩展器本身是一个基于 ReAct 框架的自主智能体,配备了三种专用工具: 1. Search:调用谷歌搜索,可根据时间进行过滤,返回相关网页的 URL 和摘要。 2. Summarize:访问多个 URL 并整合内容,是实现 R-并集操作的关键。 3. Validate:在生成子问题后,调用另一个 LLM (QwQ) 进行验证,确保:(1) 子问题与原始常量在形式化逻辑上一致;(2) 子问题不能被 LLM 直接回答,以保证其复杂性。 第三阶段:轨迹构建与智能体训练 在生成了足量的扩展问题后,进入轨迹构建和模型训练阶段。 1. 轨迹构建:使用一个配备 Search 和 Visit 工具的智能体,为每个问题执行 5 次任务(rollouts),以生成完整的解决路径。 2. 数据过滤:对生成的轨迹进行严格筛选,移除答案错误、工具调用失败、或包含幻觉及严重重复的轨迹,最终得到 5,000 条高质量的轨迹用于训练。 3. 智能体训练:采用两阶段训练策略: ◦ 监督微调 (SFT):在 5,000 条轨迹上进行监督微调,让模型学习基础的工具使用和推理模式。 ◦ 强化学习 (RL):在 SFT 模型的基础上,使用 GRPO 算法进行强化学习,进一步优化模型的决策和信息寻求策略。 实验结果与分析 WebShaper 在多个维度上都展示了其卓越的性能和设计优势。 主要成果:在基准测试中达到SOTA水平 实验结果表明,使用 WebShaper 数据集训练的模型在 GAIA 和 WebWalkerQA 两个权威基准上均达到了开源模型中的最佳性能。 • 性能领先:WebShaper 训练的 Qwen-2.5-72B 模型在 GAIA 上的平均分达到 60.19,是目前唯一得分超过 60 的开源方法,显著优于 WebSailor (55.4) 和 WebDancer (51.5) 等其他先进方法。 • 通用性强:在不同的模型底座上(Qwen-2.5-32B/72B, QwQ-32B),WebShaper 均能带来最佳性能,证明了其合成数据的普适性和有效性。 数据集对比分析 为验证 WebShaper 数据集的优越性,实验在相同模型底座上,分别使用 WebShaper 和其他数据集(WebWalkerQA, E2HQA, MHQA)进行 SFT 训练。 模型底座 训练数据集 GAIA 平均分 QwQ-32B WebShaper 53.3 WebWalkerQA 45.6 E2HQA 45.6 MHQA 41.7 Qwen-2.5-32B WebShaper 43.6 E2HQA 39.8 MHQA 35.9 WebWalkerQA 32.0 结果清晰地表明,在所有模型架构上,使用 WebShaper 训练的模型性能均显著优于使用其他数据集训练的模型。 关键设计验证 • 强化学习的有效性:RL 训练在 SFT 的基础上带来了显著的性能提升。在 GAIA 基准上,Qwen-2.5-72B 模型的得分从 46.6 提升到 60.1(+13.5),证明 RL 对于激发模型深度信息寻求能力至关重要。 • 形式化语言的优越性:与使用自然语言进行问题扩展的变体相比,基于形式化语言的合成方法在所有模型底座上都取得了更优的性能。这表明形式化能够减少合成过程中的错误传播,产出更一致和精确的问答对。 • 分层扩展策略的价值:实验证明,分层扩展结构优于顺序扩展结构。这证实了该策略能有效缓解冗余和推理捷径问题,通过可控的结构设计提升了最终性能。 数据集特征分析 • 领域分布:WebShaper 数据集覆盖了体育、学术、政治、娱乐等多个领域,分布均衡,有助于训练领域无关的通用 IS 智能体。 • 工具调用复杂性:分析显示,解决 WebShaper 中的任务需要更多的工具调用(Search 和 Visit)。其工具调用次数的分布呈现出明显的长尾特征,表明 WebShaper 包含大量需要复杂、多步推理才能解决的任务,远超其他数据集。 结论 WebShaper 提出了一种从“信息驱动”到“形式化驱动”的范式转变,为信息寻求智能体的训练数据合成提供了开创性的框架。通过引入基于集合论的数学形式化、系统性的分层扩展策略以及自主的智能体扩展器,该框架解决了现有方法在一致性、可控性和多样性方面的核心痛点。 实验结果有力地证明,由 WebShaper 合成的数据能够训练出在多个基准上达到开源 SOTA 水平的智能体,其性能表现逼近顶尖的闭源系统。这不仅验证了该方法的有效性,也为未来智能体能力的提升开辟了新的道路,即从被动地组织信息转向主动地、有原则地设计和规范任务。
2508.05748v3 WebWatcher深度解读:如何让AI实现图文并茂的深度研究与多工具自适应推理本文档对一份关于新型多模态深度研究智能体 WebWatcher 的研究报告进行了综合分析。该研究旨在解决当前人工智能(AI)领域深度研究智能体主要局限于文本处理的局限性。WebWatcher 通过集成高级视觉语言推理能力和复杂的多工具交互,开辟了多模态信息处理的新领域。核心观点与贡献:1. 解决多模态研究的挑战: 传统的深度研究智能体在处理现实世界中无处不在的视觉信息时能力不足。WebWatcher 通过结合强大的感知、逻辑、知识推理能力及对复杂工具的熟练运用,有效应对了这一挑战。2. 创新的训练方法: WebWatcher 的成功关键在于其独特的训练框架。该框架利用高质量的合成多模态轨迹数据进行高效的“冷启动”训练,并通过强化学习(具体为 GRPO 算法)进一步优化其泛化能力和决策水平。3. 强大的工具集成: 该智能体配备了一套全面的外部工具,包括网页图像搜索、网页文本搜索、网页访问、代码解释器和光学字符识别(OCR),使其能够进行深入、多步骤的推理和信息搜集。4. 推出全新评测基准: 为更准确地评估多模态智能体的能力,该研究提出了 BrowseComp-VL 基准测试。该基准要求智能体处理同时包含视觉和文本信息的复杂信息检索任务,强调了跨模态推理和高级规划能力。5. 卓越的性能表现: 实验结果表明,WebWatcher 在四个极具挑战性的视觉问答(VQA)基准测试(HLE-VL、BrowseComp-VL、LiveVQA、MMSearch)上,其性能显著优于包括 GPT-4o、Gemini-2.5-flash 在内的顶尖专有模型、传统的检索增强生成(RAG)工作流以及其他开源智能体。总之,WebWatcher 不仅在技术上实现了重大突破,也为未来开发能够自主、灵活地解决现实世界复杂问题的多模态深度研究智能体奠定了坚实的基础。--------------------------------------------------------------------------------1. 问题与挑战:当前深度研究智能体的局限性深度研究智能体代表了人工智能的前沿,大型语言模型(LLM)能够超越静态提示,规划并执行多步骤任务。然而,该领域的发展面临以下核心挑战:• 文本中心主义: 大多数现有研究和应用主要集中于文本处理,忽略了现实世界中丰富的视觉信息,如科学图表、数据图形和富含视觉元素的网页界面。• 多模态推理的复杂性: 真正的多模态深度研究要求智能体具备更强的感知、逻辑和知识整合能力。现有的多模态智能体大多依赖僵化的、模板驱动的流程,难以应对真实研究场景中的灵活性需求。• 工具使用的局限性:◦ 仅视觉工具的智能体:虽然能够执行 OCR、图像裁剪等感知任务,但在整合视觉推理与深度文本理解方面表现不佳,难以解决需要复杂跨模态推理的高难度问题。◦ 仅搜索工具的智能体:虽然能处理许多基于知识的问题,但当答案是隐含的、需要结构化交互或额外计算(如代码执行、分步计算)时,它们常常会失败。为了弥合这一差距,智能体不仅需要具备跨文本和视觉信息的强大推理能力,还需要高效地运用多种外部工具。WebWatcher 正是为解决这些挑战而设计的。2. WebWatcher:一种新型多模态深度研究智能体WebWatcher 是一个具备深度研究能力的视觉语言(VL)网络智能体。其核心设计在于整合强大的推理能力与灵活的多工具使用。2.1 核心能力• 视觉-语言深度推理: WebWatcher 能够综合处理和理解图像与文本信息,进行多跳、跨模态的复杂推理。• 动态工具链整合: 智能体可以根据任务需求,灵活地选择和组合不同的工具来搜集证据、执行计算和验证信息。2.2 工具集WebWatcher 配备了一套功能强大的外部和内部工具,以支持其复杂的推理过程:工具名称功能描述Web Image Search通过谷歌 SerpApi 检索相关图像、标题及其网页 URL,以更好地理解输入图像。Web Text Search用于开放域信息搜集,检索查询的标题和网页 URL。Visit访问指定的 URL,并根据智能体设定的“目标”返回网页摘要。Code Interpreter支持执行 Python 代码,用于符号计算和数值推理。OCR作为内部工具,通过提示和 SFT 数据调用,从输入图像中提取文本。3. 创新方法论:数据、训练与优化WebWatcher 的卓越性能源于其在数据构建、模型训练和后期优化方面的系统性创新。3.1 高质量训练数据生成为了训练出具备高级推理能力的智能体,研究团队设计了一套可扩展的数据生成流程,用于创建新的 BrowseComp-VL 基准。• BrowseComp-VL 基准简介:◦ 设计目标: 专为在真实网络环境中运行的高级多模态推理智能体设计。◦ 领域分布: 包含 5 个主要领域(娱乐、人文、科技、自然科学、其他)和 17 个细分领域。◦ 难度分级:▪ Level 1(199个VQA对): 需要多跳推理,但问题仍引用明确实体。▪ Level 2(200个VQA对): 问题中的关键实体被故意模糊化或掩盖,要求智能体进行规划、比较和综合,而非直接检索。• VQA 对生成流程:1. 生成高质量文本 QA: 首先,通过在 arXiv、GitHub 和维基百科等权威来源上进行递归链接遍历,收集知识密集型内容,并使用 GPT-4o 生成具有多跳推理链的复杂文本问答(QA)对。对于 Level 2 的问题,还会对实体进行模糊化处理。2. QA 到 VQA 的转换: 随后,通过一个自动化流程将文本 QA 转换为视觉问答(VQA)任务。该流程会为问题中的目标实体检索真实的网页图片,并将文本中对实体的直接引用替换为视觉指代(如“图中所示的物体”)。3. 三阶段质量控制: 为确保数据质量,采用了一个包含“选择器”(Selector)和“审查员”(Examiner)的过滤流程。该流程使用 GPT-4o 评估图像与问题的相关性、实体掩码的有效性以及视觉推理的合理性,剔除低质量样本。3.2 智能体训练框架WebWatcher 采用一种结合监督微调(SFT)和强化学习(RL)的两阶段训练策略。1. 自动化推理轨迹生成与筛选:◦ 使用 GPT-4o 自动为 VQA 实例构建 ReAct 风格的推理轨迹,每个轨迹包含多个“思考-行动-观察”循环。◦ 对生成的轨迹进行三阶段筛选,确保:1)最终答案与标准答案匹配;2)每个中间步骤逻辑一致;3)轨迹包含至少三次工具调用,以鼓励多步推理。2. 监督微调(SFT)作为冷启动:◦ 使用筛选出的高质量工具使用轨迹对模型进行 SFT。◦ 此阶段旨在教会智能体如何有意义地使用工具并遵循结构化的多步推理过程,为其后续的强化学习提供一个坚实的“冷启动”基础。3. 强化学习(RL)优化:◦ 采用 群体相对策略优化(GRPO) 算法对 SFT 后的模型进行进一步微调。GRPO 是一种基于排序的 PPO 变体,它通过比较一组(16个)轨迹的相对回报来计算优势,无需依赖独立的价值函数,从而提升了训练的稳定性。◦ 奖励函数:总奖励 R = w * rf + (1 - w) * ra,其中 rf 是工具调用的格式正确性得分(0或1),ra 是由 LLM 评判的最终答案语义准确性得分(0到1),权重 w 设为 0.2。4. 实验结果与性能分析WebWatcher 在多个高难度基准测试中展现了其领先性能。4.1 跨基准的卓越性能WebWatcher-32B 模型在四个关键的多模态基准测试中,其 Pass@1 分数显著优于所有基线模型(包括配备 RAG 的专有模型)。基准测试WebWatcher-32BGPT-4o (RAG)Gemini-2.5-flash (RAG)Claude-3.7 (RAG)Qwen2.5-VL-72B (RAG)HLE-VL13.6%9.8%9.2%4.3%8.6%BrowseComp-VL27.0%13.4%13.0%11.2%11.5%LiveVQA58.7%34.0%41.3%30.3%35.7%MMSearch55.3%24.1%43.9%32.7%29.2%在极其困难的 Humanity's Last Exam (HLE-VL) 基准上,直接推理的模型平均得分低于 10%,而 WebWatcher-32B 的得分为 13.6%,在生物学和物理学等挑战性领域取得了显著优势。4.2 智能体行为分析• 工具使用的灵活性: 分析显示,WebWatcher 能根据不同基准的特点动态调整其工具使用策略。◦ 在侧重信息搜集的 BrowseComp-VL 上,网页文本搜索 的使用率高达 62.1%。◦ 在侧重视觉内容的 SimpleVQA 和 LiveVQA 上,网页图像搜索 的使用率分别跃升至 39.4% 和 31.8%。◦ 代码解释器 仅在需要进行真实计算时被调用,证明了智能体的成本和情境感知能力。• SFT 冷启动的重要性: 实验证明,SFT 冷启动对于 RL 训练至关重要。未使用 SFT 的模型在训练初期得分接近于零,而经过 SFT 的模型初始得分显著提高(在 HLE 上为 0.12,BC-VL 上为 0.30),为后续 RL 优化提供了有效的起点。• Pass@k 性能扩展分析: 在 HLE 基准上,随着尝试次数 k 的增加,WebWatcher 的成功率大幅提升。◦ Pass@1: 13.6%◦ Pass@3: 20.3%◦ Pass@16: 35.7%◦ Pass@32: 41.9% 这表明智能体能够生成多样化且互补的推理路径,通过系统性探索显著提高解决复杂问题的能力。与单次推理相比,32 次尝试几乎将成功率提高了三倍。5. 关键贡献与意义该研究通过 WebWatcher 项目为多模态 AI 领域带来了多项关键贡献:1. 提出 WebWatcher 框架: 首次构建了一个统一的框架,将复杂的视觉语言推理与多工具交互相结合,用于解决深度研究任务,推动了智能体从文本世界向多模态世界的跨越。2. 创建 BrowseComp-VL 基准: 提供了一个专为评估高级多模态智能体而设计的、具有挑战性的大规模 VQA 数据集,填补了现有评测基准在多步、跨模态、规划导向推理评估方面的空白。3. 开发可扩展的数据与轨迹生成流程: 引入了一套从复杂文本 QA 自动生成高质量 VQA 训练数据和工具使用轨迹的流程,为训练复杂任务的智能体提供了高效且可靠的方法。4. 奠定未来研究基础: WebWatcher 的成功为开发更自主、更灵活、具备更深度推理能力的下一代多模态智能体铺平了道路,对实现通用人工智能(AGI)具有重要意义。