EP67:林俊旸离职后首度发声-从“推理思维”到“智能体思维”AI西经东译

EP67:林俊旸离职后首度发声-从“推理思维”到“智能体思维”

16分钟 ·
播放数143
·
评论数0

本文章《From "Reasoning" Thinking to "Agentic" Thinking》基于对 AI 模型发展趋势的深度分析,前阿里千问技术负责人林俊旸探讨了从以 OpenAI o1 和 DeepSeek-R1 为代表的“推理思维(Reasoning Thinking)”向“智能体思维(Agentic Thinking)”的范式转移。推理思维阶段解决了通过强化学习(RL)实现长路径思维链的问题,并强调了基础设施和确定性反馈信号的重要性。然而,AI 发展的下一阶段将聚焦于“智能体思维”——即为了“行动”而“思考”。这种转变要求模型在与环境的闭环交互中不断更新计划,并对强化学习基础设施、环境设计及评估体系提出了更高且更复杂的挑战。

一、 推理思维阶段的启示:o1 与 R1 的遗产

推理思维阶段(2025 年上半年之前)确立了“思考”作为模型核心能力的地位,其关键发现包括:

  • 强化学习(RL)的规模化: 推理模型的成功表明,若要规模化语言模型的 RL,需要确定性、稳定且可扩展的反馈信号。数学、代码和逻辑等可验证领域成为核心,因为这些领域的奖励强于通用的偏好监督,使 RL 能够优化“正确性”而非仅仅是“表面合理性”。
  • 基础设施的系统化转向: 一旦模型被训练进行长轨迹推理,RL 不再仅仅是监督微调(SFT)的轻量级补充,而演变为一个系统工程问题。它需要大规模的回传(Rollouts)、高吞吐量的验证、稳定的策略更新以及高效的采样。
  • 后训练阶段的范式转移: 行业焦点已从规模化预训练(Pre-training)转向规模化推理相关的后训练(Post-training)。

二、 架构挑战:推理模式与指令模式的融合之争

关于如何处理“思维链(Thinking)”与“指令遵循(Instruct)”两种模式,业界存在明显的路线分歧:

1. 行为目标的内在冲突

研究发现,强指令模型与强推理模型在行为特征上存在矛盾:

  • 指令模型(Instruct): 追求直接、简洁、遵循格式、低延迟,适用于重写、标注、结构化提取等企业任务。
  • 推理模型(Thinking): 奖励模型消耗更多 Token 来解决难题、保持中间结构的连贯性并探索备选路径。

2. 不同实验室的应对策略

关键结论: 成功的融合不仅是模型检查点的合并,而应实现“推理努力(Reasoning Effort)”的平滑频谱,使模型能根据问题难度自适应选择计算量。

三、 核心转型:定义“智能体思维(Agentic Thinking)”

“智能体思维”不仅是更长的推理轨迹,而是一种全新的优化目标。它强调为了行动而思考,在与环境交互的过程中持续更新。

1. 智能体思维的核心特征

智能体思维必须处理推理模型通常可以规避的问题:

  • 行动决策: 决定何时停止思考并采取具体行动。
  • 工具调用: 选择合适的工具及其调用顺序。
  • 观察处理: 纳入来自环境的嘈杂或部分观测信息。
  • 计划修正: 在遭遇失败后动态修订计划。
  • 长期连贯性: 在多轮对话和多次工具调用中保持连贯。

2. 从“模型”到“智能体”的跨越

未来的重点是从训练模型转向训练智能体。智能体是一个闭环系统,其定义在于与世界的持续交互。这意味着“好的思维”不再是产生最令人印象深刻的中间文字,而是能在现实约束下维持有效行动的最实用路径。

四、 智能体强化学习(Agentic RL)的技术壁垒

随着目标从解决基准测试转向解决交互式任务,RL 架构面临更严峻的挑战:

  • 环境的集成: 策略模型被嵌入到由工具服务器、浏览器、终端、沙箱等组成的庞大“马甲(Harness)”中。环境不再是静态验证器,而是训练系统的一部分。
  • 训练与推理的解耦: 为避免由于工具延迟和环境观察导致的吞吐量崩溃,必须在系统层面实现训练与推理的深度解耦。
  • 环境质量作为核心资产: 环境的设计(稳定性、现实性、覆盖范围、抗欺骗性)已成为一级研究课题,其重要性不亚于数据多样性。
  • 奖励破解(Reward Hacking)风险: 在具备工具访问权限后,模型可能学会通过直接查答案或利用环境漏洞来“作弊”。这对评估器的鲁棒性和防作弊协议提出了极高要求。

五、 未来展望:作为系统的Agent

未来,Agent思维将成为思维的主导形式,取代孤立、冗长的“静态独白式”推理。

  • 可用思维(Usable Thought): 即使在数学或代码任务中,先进系统也应有权进行搜索、模拟、执行和验证,而非仅仅依赖内部计算。
  • 马甲工程(Harness Engineering): 核心智能将越来越多地源于多个智能体的组织方式,例如由协调员(Orchestrator)负责计划和路由,由专门的领域智能体执行具体任务。
  • 竞争优势的转移:推理时代: 优势来自 RL 算法、反馈信号和规模化流水线。
    智能体时代: 优势将来自更好的环境设计、更紧密的训练-推理集成、强大的马甲工程,以及闭合模型决策与执行后果之间反馈环的能力。

结论

AI 的演进正处于从“推理思维”向“智能体思维”过渡的关键节点。这一转变意味着训练的对象已经改变:现在是针对“模型+环境”系统的整体优化。未来的技术突破将不再仅仅源于模型架构或数据量,而将源于环境质量、评估器鲁棒性以及智能体与外部世界交互的接口设计。

**📺播客说明**

本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。