该研究旨在通过系统性地扩展训练环境,推进大型语言模型(LLM)的通用智能体智能(General Agentic Intelligence),特别是其函数调用(Function Calling)能力。当前该领域的核心瓶颈在于高质量“智能体数据”(即由自主智能体与环境交互生成的轨迹)的稀缺性。
为应对此挑战,研究提出了一种名为 AgentScaler 的方法,其核心是一个两阶段流水线:
1. 系统化的环境构建与扩展:该阶段通过一个创新框架自动化地构建多样化、完全模拟的交互环境。此框架将函数调用抽象为对底层数据库的读写操作,通过收集超过3万个真实API、构建工具依赖图、并将其程序化为可执行代码,实现了可扩展且可验证的环境生成。
2. 智能体经验学习:在此阶段,模型通过与模拟环境的交互来学习。首先,通过模拟的“人机交互”收集智能体经验轨迹,并采用一个严格的三阶段漏斗式框架进行过滤,确保数据质量。随后,采用一种两阶段微调策略:第一阶段在通用领域中训练模型掌握基础工具使用技能;第二阶段则在垂直领域中进行专门训练,以优化其在特定场景下的表现。
基于该流水线训练的 AgentScaler 模型家族(基于Qwen3系列),在多个权威智能体基准测试(τ-bench, τ2-Bench, ACEBench)中展现了卓越性能。AgentScaler-30B-A3B 模型在参数量远小于万亿级别模型的情况下,性能达到了业界顶尖水平,甚至可与部分闭源模型媲美。AgentScaler-4B 等小型模型也取得了与30B级别模型相当的性能,凸显了在紧凑型模型中培养高级智能体能力的巨大潜力。研究还深入分析了模型的泛化能力、稳定性及长程工具调用等关键问题,为开发通用智能体智能提供了重要见解。
核心挑战与解决方案
挑战:智能体数据的稀缺性
大型语言模型在实际应用中的智能体能力,根本上受限于“智能体数据”的匮乏。这些数据是模型通过与环境进行工具调用交互而产生的轨迹。以往的合成数据生成方法存在局限性:
• 逆向范式:从函数调用反向生成用户查询,可能导致轨迹的真实性不足。
• 前向范式:基于高层用户意图进行模拟人机交互,但由于环境构建依赖人工干预,难以大规模部署和扩展。
解决方案:AgentScaler的双阶段框架
为解决上述挑战,该研究提出了一套 principled(有原则的)双阶段流水线,旨在通过系统性地扩展环境来提升通用智能体智能。
1. 全模拟环境构建与扩展:负责建立和扩展多样化的智能体场景。
2. 智能体经验学习:利用这些环境来培养模型的泛化智能。
第一阶段:系统化的环境构建与扩展
设计原则:将环境抽象为可读写数据库
该框架的核心设计原则是,任何函数调用本质上都可以被解释为对一个底层环境数据库 D 的读写操作。
• 读操作 (read):查询数据库,如检索、检查、监控。
• 写操作 (write):改变数据库状态,如修改、生成、驱动。
基于此,工具响应等同于在数据库 D 上执行相应操作。同一领域的工具通常具有相似的读写模式,可共享一个通用的数据库模式(schema)。因此,环境构建问题简化为将工具空间划分为不同领域,并为每个领域定义一个数据库模式。
自动化构建流程
研究团队设计了一个系统化的流程来自动化构建环境:
步骤
描述
规模与细节
场景收集 (Scenario Collection)
从多个来源收集大量真实世界的API,并进行严格筛选和重写,以确保质量和规格清晰。
收集超过 30,000 个API,构建了一个可靠的API池。
工具依赖图建模 (Tool Dependency Graph Modeling)
将工具作为节点,基于函数参数的向量余弦相似度构建边,形成工具图。随后采用Louvain社区检测算法将图聚类,形成不同的“领域”。最后使用LLM进一步优化图的边准确性。
共划分出超过 1,000 个领域。
函数模式的程序化实现 (Function Schema Programmatic Materialization)
对每个领域内的所有工具参数进行分析,生成一个领域专属的数据库结构。然后,将每个工具形式化为可对该数据库进行读写操作的Python代码。
生成的数据库结构和代码经人工检查,与τ-bench等基准的官方实现高度一致。
智能体任务构建
在构建好的环境中,通过“前向模拟人机交互”的方式构造智能体任务,确保生成的轨迹具有可验证性。
1. 初始化环境状态:基于领域数据库模式,生成多样化的初始数据库状态。
2. 采样工具序列:在领域的工具依赖图上进行有向遍历,生成逻辑连贯的工具调用序列。
3. 执行与验证:为序列中的每一步生成参数并实际执行工具调用,直接操作数据库并持续追踪状态变化。这使得验证可以在两个层面进行:
◦ 数据库层面:状态一致性。
◦ 工具序列层面:精确匹配。
第二阶段:智能体经验学习
经验收集:模拟人机交互
在构造好的智能体任务基础上,通过模拟人机交互来收集智能体经验。
• 交互设置:实例化一个模拟用户(负责完成总体意图)和一个任务智能体(利用领域工具满足用户需求)。
• 交互过程:两者持续互动,直到模拟用户认为任务完成。
• 数据产出:每次完整的交互都会产生一条智能体经验轨迹,用于后续模型训练。
严格的轨迹过滤漏斗
由于拥有任务的“黄金”工具序列、参数和最终环境状态,研究采用了一个三阶段漏斗式框架对收集到的轨迹进行严格过滤:
1. 有效性控制 (Validity Control):移除格式无效的交互轨迹,并使用n-gram过滤掉严重重复的推理片段。
2. 环境状态对齐 (Environment State Alignment):只保留那些交互后最终数据库状态与黄金状态相匹配的轨迹,从而验证“写操作”的有效性。
3. 函数调用精确匹配 (Function Calling Exact Match):这是最严格的过滤阶段。对于仅包含“读操作”的序列(这类操作不会改变状态),只有当其调用的工具和参数序列与黄金标准完全一致时,轨迹才会被保留。
值得注意的是,该框架不会过滤掉那些工具调用返回错误的轨迹。只要最终目标得以实现,这些包含中间失败的轨迹会被保留,这有助于提升模型的鲁棒性。
两阶段智能体微调策略
为了让模型有效学习智能体能力,研究采用了分阶段的学习框架:
• 第一阶段:基础能力学习
◦ 目标:让智能体掌握通用的工具使用和用户交互基础技能。
◦ 方法:在覆盖广泛工具和任务的通用领域进行训练,重点培养模型调用函数的时机、方式以及整合工具输出以生成连贯响应的能力。
• 第二阶段:领域专业化
◦ 目标:在特定垂直领域中进行精细化训练,使智能体能力与领域上下文对齐。
◦ 方法:在目标领域的真实场景中进行训练,优化模型在选择工具、参数化调用以及生成精准、符合领域目标的响应方面的能力。
实验结果与性能评估
主要结果
AgentScaler模型家族在τ-bench、τ2-Bench和ACEBench-en三个主流智能体基准上与多种闭源和开源模型进行了比较。
模型类别
模型名称
τ-bench (Retail)
τ-bench (Airline)
τ2-Bench (Retail)
τ2-Bench (Airline)
ACEBench-en (Overall)
闭源模型
Gemini-2.5-pro
68.7
44.0
67.5
56.0
78.2
GPT-o3
70.4
52.0
80.2
64.8
78.2
开源模型 (>100B)
Kimi-K2-1T-A32B
73.9
51.2
70.6
56.5
77.4
Deepseek-V3.1-671B
66.1
40.0
64.9
46.0
69.3
Qwen3-Thinking-235B
67.8
46.0
71.9
58.0
70.2
本文模型
AgentScaler-4B
64.3
54.0
62.3
56.0
65.9
AgentScaler-8B
50.4
42.0
58.8
44.0
67.4
AgentScaler-30B-A3B
70.4
54.0
70.2
60.0
75.7
基座模型
Qwen3-Thinking-4B
59.1
52.5
56.1
52.0
49.5
Qwen3-Thinking-30B-A3B
67.8
48.0
58.8
58.0
67.2
关键结论:
• 性能领先:AgentScaler在参数量小于1T的开源模型中取得了新的SOTA(state-of-the-art)性能。
• 高效学习:AgentScaler-30B-A3B的性能与万亿参数级别的开源模型相当,在某些领域接近闭源模型,证明了该方法的效率。
• 小模型潜力:AgentScaler-4B以极少的参数量达到了与30B级别模型相当的性能,展示了在紧凑型模型上部署高级智能体能力的可行性。
消融研究:两阶段训练的有效性
在ACEBench-en上的消融实验证明,与基座模型(Qwen3-Thinking-30B-A3B)相比,**第一阶段(通用学习)和第二阶段(领域专业化)**的训练均能显著提升模型在所有子集上的性能。这验证了两阶段训练设计的有效性:通用基础学习对于建立工具使用能力至关重要,而后续的领域专业化则进一步巩固和情境化了这些能力。
深入分析
• 泛化能力:在训练分布之外的ACEBench-zh基准测试中,AgentScaler模型在所有规模上均持续优于其Qwen基座模型。特别是,AgentScaler-4B在智能体能力上的得分从6.7飙升至38.4,整体得分提升21.7分,展示了强大的知识迁移和泛化能力。
• 稳定性:通过pass@k指标评估,AgentScaler-30B-A3B的稳定性显著优于其基座模型。然而,随着k值的增加,所有模型的性能都呈明显下降趋势,表明现有LLM的稳定性仍是一个重大挑战。
• 长程工具调用:分析显示,任务中的工具调用次数与任务准确率之间存在明显的负相关关系。这意味着处理长链条的工具使用对于当前的智能体模型仍然是一个悬而未决的难题。
结论与局限性
核心贡献
该研究提出了一套用于通过系统性环境扩展和智能体经验学习来提升通用智能体智能的原则性流水线。通过将工具程序化为可与数据库交互的代码,该方法实现了大规模、可验证的智能体轨迹构建。基于此,两阶段的学习框架使AgentScaler模型家族在多个基准测试中取得了开源模型中的SOTA性能,显示出极高的效率和潜力。
局限性与未来方向
1. 缺乏强化学习 (Reinforcement Learning):尽管所构建的模拟环境提供了稳定和低延迟的反馈,非常适合RL优化,但目前工作中尚未集成RL。这是未来工作的重点方向。
2. 模型规模 (Model Scale):当前方法的验证仅限于30B规模的模型,尚未扩展到超过200B或万亿参数级别。尽管如此,研究者认为,在相对较小的模型中训练智能体能力具有重要意义,因为这些模型更易于部署到边缘设备,适用场景更广,响应速度更快。
