大型语言模型(LLM)在进化为能够自主使用工具并解决复杂问题的智能体系统时,面临一个根本性的训练瓶颈。传统的后训练方法(如监督微调和强化学习)在应用于通用基础模型时表现不佳,因为这些模型被迫同时学习智能体行为并与专家演示对齐,从而产生了根本性的“优化冲突”。为了解决这一问题,一份题为《通过持续预训练扩展智能体》的研究报告首次提出了一个创新的训练范式——智能体持续预训练(Agentic Continual Pre-training, Agentic CPT)。该方法在传统的预训练和后训练之间增加了一个中间阶段,旨在构建一个预对齐的智能体基础模型。这个基础模型天生就具备了智能体行为所需的归纳偏置,从而显著提升了下游微调的效率和效果。基于这一方法,研究团队开发了一款名为 AgentFounder 的深度研究智能体模型。该模型通过两种系统性、可扩展且无需调用外部API的离线数据合成方法——一阶行动合成(FAS)高阶行动合成(HAS)——进行训练。实验结果表明,AgentFounder-30B 模型在10个基准测试中取得了当前最佳(SOTA)性能,其表现不仅超越了所有开源深度研究智能体,甚至在部分任务上优于顶尖的商业闭源模型。关键性能指标包括在 BrowseComp-en 上达到 39.9% 的准确率,在 HLE 基准上达到 31.5% 的Pass@1,成为首个突破30分大关的开源模型。这些发现证明,Agentic CPT是构建强大智能体基础模型的有效途径,为智能体能力的扩展开辟了新的方向。核心论点:智能体对齐的范式转变该研究重新定义了语言模型的对齐概念,提出了智能体对齐(agentic alignment)。这要求模型在动态环境中解决复杂任务时,其行为(包括推理链、工具调用和对环境变化的适应性反应)必须与人类专家的演示保持一致。当前开源智能体模型性能普遍落后的根本原因被确定为:它们大多建立在通用目的的基础模型之上,这些模型缺乏智能体归纳偏置。因此,在后训练阶段,模型面临着双重负担:既要学习多样的智能体能力,又要与有限的专家轨迹对齐。这种双重任务导致了优化冲突,限制了模型发展灵活决策能力,使其倾向于模仿特定的行为模式而非真正理解任务。Agentic CPT 正是为解决这一核心矛盾而提出的范式转变。它作为一个介于通用预训练和特定任务后训练之间的中间扩展层,其核心目标是交付一个已经具备智能体行为基础的“预对齐智能体基础模型”,从而使后续的微调过程能更专注于高级策略和对齐,而非从零开始学习基础的智能体能力。AgentFounder模型:一种系统性训练方法AgentFounder 是基于 Agentic CPT 理念构建的深度研究智能体,它采用了一套创新的训练流程和数据合成方法。创新的三阶段训练流程研究报告对传统的两阶段(预训练 -> 后训练)LLM开发流程进行了根本性重塑,集成 Agentic CPT 形成了一个增强的三阶段流程:1. 通用预训练:模型从海量通用数据中学习广泛的知识,此阶段使用 Qwen3 系列模型作为基础。2. 智能体持续预训练 (Agentic CPT):这是新增的核心阶段,旨在向模型注入智能体能力。该阶段本身又分为两个步骤:◦ 阶段一:使用约2000亿个Token的智能体数据和知识推理语料,在32K上下文长度下进行训练,使模型初步掌握工具调用模式和多步推理链。◦ 阶段二:使用1000亿个精心筛选的高质量智能体数据,将上下文长度扩展至128K,使模型能够理解复杂的行动空间和长远规划策略。3. 后训练(微调):使用通用指令数据和智能体轨迹演示的混合数据进行监督微调,以进一步解锁基础模型的能力并使其与特定任务对齐。可扩展的离线数据合成方法AgentFounder 成功的关键在于其系统性且可大规模生成的离线数据合成方法,该方法无需实际调用工具或产生API成本。一阶行动合成 (First-order Action Synthesis - FAS)FAS 旨在生成大量的 (问题, 规划, 行动) 数据元组,完全不依赖监督信号。• 知识到问题的转化:首先,通过从网页文本、历史搜索结果等多种来源收集数据,构建一个以实体为索引的“实体锚定开放世界知识记忆库”。随后,通过对实体及其关联知识进行采样,自动合成涵盖事实检索、数值计算、多跳推理等多种类型的复杂问题。这种方法比传统的知识图谱方法更灵活,能够生成更可靠和新颖的问题。• 规划行动合成:针对生成的问题,利用LLM生成多个不同的问题分析以及对应的第一步行动预测(工具调用或直接回答)。这种方法不仅避免了实际API调用成本,还通过多样的分析视角有效扩展了模型的行动空间探索。• 推理行动合成:为了提升模型在信息充足后进行逻辑推理和综合的能力,FAS设计了一个两步方案。首先,让模型将问题分解并根据内部知识进行初步回答;然后,提供解决该问题所需的所有知识,要求模型修正逻辑错误并生成最终答案。• 质量控制:所有FAS生成的数据都通过一个基于“LLM即评判者”的拒绝采样机制进行筛选,以确保数据质量。高阶行动合成 (Higher-order Action Synthesis - HAS)HAS 旨在有效复用后训练阶段产生的大量次优轨迹数据,将它们转化为有价值的训练信号。• 核心思想:将学习目标从模仿完整的轨迹转变为学习步进式决策。• 实现方法:1. 步级扩展:对于一个已有轨迹的每一步,利用LLM在不执行工具的情况下生成N个备选的“思考和调用”方案。2. 对比决策合成:将原始轨迹与扩展的备选方案重构成一个多选项的决策过程。训练数据会明确展示在每一步面临多个选项时,模型选择了哪一个,以及该选择最终是否导向了成功的任务结果。这种方法将原本被丢弃的轨迹数据转化为丰富的训练信号,显著提升了样本效率。关键实验结果与发现AgentFounder-30B 在一系列全面的实验中展示了其卓越的性能和 Agentic CPT 方法的有效性。卓越的性能表现AgentFounder-30B 在10个通用及特定场景的网页搜索基准测试中,全面超越了现有的开源深度研究智能体,并在多个指标上达到了新的SOTA水平。基准测试 (Benchmark)AgentFounder-30BDeepSeek-V3.1GLM-4.5OpenAI Deep ResearchBrowseComp-en39.9%30.0%26.4%51.5%BrowseComp-zh43.3%49.2%37.5%-GAIA72.8%63.1%66.0%67.0%HLE (Pass@1)31.5%29.8%21.2%26.6%AcademicBrowse75.3%65.0%55.6%-DeepResearch Bench47.9%35.4%39.2%46.5%Frames89.6%83.7%78.9%-SEAL-043.9%42.6%34.2%-• SOTA性能:AgentFounder-30B 在 BrowseComp-en、GAIA、HLE、Academic Browse、DeepResearch Bench、Frames 和 SEAL-0 等多个基准上取得了最佳性能。• 里程碑式突破:在极具挑战性的 HLE 基准上,AgentFounder-30B 成为首个得分超过30分的开源模型,其 31.5% 的成绩甚至超过了所有已报告的闭源研究产品。• 强大的学术研究能力:在 Academic Browse 上的 75.3% 得分,证明了其作为学术助理的巨大价值。Agentic CPT的普适有效性实验证明,经过 Agentic CPT 训练的 AgentFounder-Base 模型能够为不同类型的后训练方法提供一个更优的起点。无论使用哪种监督微调数据集(SFT-A、SFT-B 或 SFT-C),基于 AgentFounder-Base 进行微调的模型性能始终显著优于从通用基础模型(Qwen3-30B-A3B-Base)开始微调的模型,平均性能提升分别达到 5.75%、6.13% 和 6.45%。这证实了 Agentic CPT 的普适有效性。训练策略与数据类型的有效性• 两阶段训练策略:实验证明,包含长上下文训练的第二阶段至关重要。与仅使用第一阶段训练相比,完整的两阶段训练在 Pass@1 和 Pass@3 指标上分别带来了平均 3.3% 和 3.7% 的性能提升。• 数据类型贡献:FAS 和 HAS 两种数据类型均对模型性能有积极贡献。单独使用 FAS 数据即可带来显著提升,而加入 HAS 数据则能提供互补的优势,进一步优化性能。明确的扩展定律该研究验证了智能体能力存在明确的扩展定律(Scaling Laws)。• 模型规模:随着模型参数从1B增加到30B,智能体的平均准确率从20.4%提升至48.9%。值得注意的是,AgentFounder-30B 的性能(48.9%)超越了更大规模的基线模型,显示出更高的扩展效率。• 数据规模:随着训练数据量从0增加到3150亿个Token,模型性能呈现出稳定的对数增长关系,总增益达到8.0%。这证明了 Agentic CPT 方法的鲁棒性和可扩展性。训练效率与通用工具使用能力的提升• 训练效率:AgentFounder 模型在下游任务微调时,其训练损失显著低于基线模型。这表明 Agentic CPT 成功地为模型注入了基础智能体能力,缓解了微调阶段的“双重负担”,使训练过程更高效。• 通用工具使用:在评估通用工具使用能力的 ACEBench 基准测试中,AgentFounder-30B 的表现优于其基础模型 Qwen3-30B-A3B。这表明 Agentic CPT 框架不仅适用于深度研究任务,还具备向更广泛的通用智能体场景迁移的潜力。结论该研究工作通过引入**智能体持续预训练(Agentic CPT)**这一新范式,为深度研究智能体的训练提供了根本性的改进。通过系统性的离线数据合成方法(FAS和HAS)和渐进式的两阶段训练策略,成功构建了 AgentFounder-30B 模型。该模型在多个权威基准测试中树立了新的性能标杆,有力地证明了在后训练之前构建一个预对齐的智能体基础模型是扩展大型语言模型能力、解决复杂问题的关键一步。

2509.13311v1 AgentFounder如何用“智能体持续预训练”(Agentic_CPT)实现深度研究能力
28分钟 ·
0·
0