OpenAI姚顺雨 | AI下半场，Agent如何用语言定义新世界

19分钟 ·8个月前

29

·

0

来源：mp.weixin.qq.com

OpenAI研究员姚顺雨在访谈中阐述了AI进入“下半场”的观点，核心在于从模型训练转向任务与环境的定义。他强调了语言作为通用工具对Agent泛化能力的重要性，并指出创业公司在设计新型交互方式上的巨大机会，预见了一个既可能由Super App主导又趋向多元化的AI生态。AI发展与Agent研究路径
个人研究历程：姚顺雨从清华姚班和普林斯顿毕业，因发现语言是构建通用系统的关键，转向Language Agent研究，至今已有6年。
AI范式演变： AI经历了符号主义AI、深度强化学习（如AlphaGo），最终发展到基于大语言模型（LLM）的第三波Agent浪潮，核心是LLM提供的推理能力实现泛化。
技术选择与突破：早期意识到GPT而非BERT更适合开放行为空间任务；通过WebShop解决Agent环境问题，并用ReAct框架协同推理与行动，标志着从“训练模型”到“使用模型”的转变。
非共识的价值：在多数人关注垂直细分任务时，姚顺雨坚持做简单且通用的Agent，认为这是一个非共识但极具潜力的方向。
Agent核心能力与泛化
Agent的定义与推理：从自然语言处理角度，Agent是能与外界交互、调用工具的系统；更广义上，是能自我决策、优化奖励的系统。其核心区别在于语言模型提供的推理能力，使得Agent能泛化到不同环境。
OpenAI的Agent分级： OpenAI将AI能力分为5级，Agent（L3）建立在聊天机器人（L1）和推理者（L2）能力之上，进一步发展方向是拥有奖励机制和多智能体协作。
关键能力与“机器之手”：姚顺雨最看重Agent的上下文（Context）和记忆（Memory）处理能力，认为这是实现终身学习的基础。他将代码（Code）比作AI最重要的“手”，是实现AGI的关键环境之一。
泛化的本质：语言是人类为实现泛化而发明的工具，AI通过语言和推理也实现了泛化，这体现在模型在数学和编程领域训练后，也能提升创意写作能力。
任务设计与商业价值
“AI下半场”的瓶颈： AI发展的主线瓶颈已从模型训练转移到如何定义好的任务和环境，需要用通用方法解决有价值的实际问题。
结果导向的奖励机制：成功的Agent任务（如数学和编程）应采用基于结果、白盒、规则化的奖励机制，而非过程导向或基于主观偏好的奖励，以避免“投机取巧”。
AI与人类任务差异：人类认为简单或困难的任务，对Agent而言可能相反，例如软件工程对Agent可能比客服更容易，因为前者有更清晰的环境和奖励。
Agent的应用分类：任务可分为注重可靠性（如客服，需要Pass^k指标）和注重创造力（如科学发现，允许多次失败）两种，以及不同深广度的任务，Agent需要针对性优化。
AI生态与未来展望
创业公司的机会：大模型能力溢出为创业公司带来机会，尤其是在设计“超越ChatGPT”的新型交互方式上，因为Super App（如ChatGPT）会形成路径依赖，为新入者留下空间。
Agent生态的构建：未来Agent生态的重要方向包括长期记忆（Long-Term Memory）、内生奖励机制（Intrinsic Reward）和多智能体系统（Multi-Agent System），对应OpenAI的创新者（L4）和组织者（L5）框架。
中心化与去中心化： AI世界可能呈现出巨头公司推动中心化Super App与个体赋能的去中心化Agent网络并存的局面，形成一个既单极又多元的世界。
未来Agent的演化：预测未来12-24个月，模型公司的Chatbot系统将演化为Agent系统，出现更多类似Cursor的新型Copilot产品，Agent基础设施也将围绕其运行，但短期内仍将偏向中心化Super App。

在小宇宙打开