碾压OpenAI Deep Research!阿里王牌Agent如何炼成「超级研究大脑」?

碾压OpenAI Deep Research!阿里王牌Agent如何炼成「超级研究大脑」?

23分钟 ·
播放数8
·
评论数0

🎙️ 本期核心:告别“一问一答”时代!

本期节目聚焦人工智能领域的最前沿突破——阿里巴巴通义实验室开源的通义DeepResearch模型及其背后的核心技术框架 AgentFounder。这不仅是一个高性能的AI模型,更是一套完整、可复现、可扩展的Agent研发方法论。

通义DeepResearch(特别是 AgentFounder-30B 版本)在多项权威基准测试中表现卓越,首次实现了对主流闭源和开源 Deep Research Agent 的系统性超越,一举登顶SOTA。

如果你想了解AI如何从“智能问答机”进化为“资深研究员”,本期节目不容错过!

✨ 划重点:四大关键突破,性能狂飙!

1. 霸榜全球第一:通过“人类最后的考试”!

通义DeepResearch 在最具挑战性的 Agent 基准上表现惊人:

HLE(Humanity's Last Exam,人类最后的考试):AgentFounder-30B 成为首个突破 30% 门槛的开源模型,达到 31.5%,超越了所有已知的闭源产品,包括 DeepSeek-V3.1 (29.8%) 和 OpenAI Deep Research (26.6%)。

BrowseComp:在OpenAI提出的超高难度网页浏览榜单上,它以 43.3%(中文)和 39.9%(英文)的准确率领跑开源领域。

GAIA(text):在通用AI助理基准测试中,它取得了 72.8% 的高分。

Frames:在多视角推理和信息综合评估中,它以 89.6% 的成绩大幅超越所有开源和闭源模型。

这一系列成绩证明,AgentFounder-30B 具备了执行专家级任务的能力。

2. 训练范式革命:首创“Agentic CPT”

传统的 Agent 模型训练,依赖于在通用大模型基础上进行后训练(SFT/RL),存在“同时学习能力与对齐”的优化冲突。通义DeepResearch 团队首次提出了革命性的训练范式,在预训练和后训练之间引入了 Agentic Continual Pre-training (Agentic CPT) (智能体增量持续预训练)

Agentic CPT 的核心目标是在下游微调前,构建一个预对齐的智能体基础模型,让模型天然支持工具调用和多步推理行为。

3. 数据炼金术:AgentFounder全自动合成

解决高质量数据稀缺问题是关键。AgentFounder 是一套全自动、可扩展、闭环的数据合成系统

FAS(First-order Action Synthesis,一阶动作合成):通过构建**“实体锚定的开放世界知识记忆库”**,将静态知识转化为动态的问题解决情境。它能够在离线环境下大规模生成“规划动作”和“推理动作”数据,无需昂贵的商业API调用成本

HAS(Higher-order Action Synthesis,高阶动作合成):将 Agent 轨迹重构为多步决策过程。通过在每一步扩展推理和行动的选项集,将此前被浪费的、次优的轨迹数据转化为丰富的训练信号,显著提升了模型的探索和决策能力

4. 复杂任务利器:IterResearch深度模式

面对需要长远规划和海量信息处理的复杂研究任务,模型采用了创新的推理架构:

Native ReAct 模式:模型基于标准 Thought-Action-Observation 循环,在 128K 上下文长度下进行数十轮交互,直接展现模型内生的 Agentic能力。

IterResearch 范式(深度模式):为了克服传统 ReAct 模式中**“认知局限”和“噪声污染”的问题,IterResearch 将任务分解为多个“研究轮次”。每轮只提取最核心的结论重建一个轻量工作区,确保 Agent 在处理超长任务时,始终保持清晰的认知焦点**和高质量的推理。

🌐 落地应用:不止于研究

通义DeepResearch的技术并非停留在论文层面,它已深度赋能阿里系产品:

高德智驾:应用于高德“小高老师”,构建了精通地图领域的复杂 “POI推理Agent”,能够处理多维度约束(如地理、交通、时间、评分)的行程规划需求。

通义法睿:融入法律智能体,大幅升级其 DeepResearch 能力。在 PK 中,通义法睿在答案要点质量、案例引用质量、法条引用质量三大核心维度上,超越了OpenAI、Claude 等同类产品。

📢 节目结语

通义DeepResearch的全面开源,无疑是 Agent 领域的一大里程碑。它提供了一条轻量模型称霸深度研究的有效路径,并大方分享了其核心秘方:合成数据+强化学习是训练未来 Agent 的关键。

欢迎访问 GitHub 获取所有项目论文和代码,共同构建下一代深度研究智能体!