OpenAI姚顺雨 | AI下半场,Agent如何用语言定义新世界
19分钟
·
29
·
0
来源:mp.weixin.qq.com
OpenAI研究员姚顺雨在访谈中阐述了AI进入“下半场”的观点,核心在于从模型训练转向任务与环境的定义。他强调了语言作为通用工具对Agent泛化能力的重要性,并指出创业公司在设计新型交互方式上的巨大机会,预见了一个既可能由Super App主导又趋向多元化的AI生态。AI发展与Agent研究路径
个人研究历程: 姚顺雨从清华姚班和普林斯顿毕业,因发现语言是构建通用系统的关键,转向Language Agent研究,至今已有6年。
AI范式演变: AI经历了符号主义AI、深度强化学习(如AlphaGo),最终发展到基于大语言模型(LLM)的第三波Agent浪潮,核心是LLM提供的推理能力实现泛化。
技术选择与突破: 早期意识到GPT而非BERT更适合开放行为空间任务;通过WebShop解决Agent环境问题,并用ReAct框架协同推理与行动,标志着从“训练模型”到“使用模型”的转变。
非共识的价值: 在多数人关注垂直细分任务时,姚顺雨坚持做简单且通用的Agent,认为这是一个非共识但极具潜力的方向。
Agent核心能力与泛化
Agent的定义与推理: 从自然语言处理角度,Agent是能与外界交互、调用工具的系统;更广义上,是能自我决策、优化奖励的系统。其核心区别在于语言模型提供的推理能力,使得Agent能泛化到不同环境。
OpenAI的Agent分级: OpenAI将AI能力分为5级,Agent(L3)建立在聊天机器人(L1)和推理者(L2)能力之上,进一步发展方向是拥有奖励机制和多智能体协作。
关键能力与“机器之手”: 姚顺雨最看重Agent的上下文(Context)和记忆(Memory)处理能力,认为这是实现终身学习的基础。他将代码(Code)比作AI最重要的“手”,是实现AGI的关键环境之一。
泛化的本质: 语言是人类为实现泛化而发明的工具,AI通过语言和推理也实现了泛化,这体现在模型在数学和编程领域训练后,也能提升创意写作能力。
任务设计与商业价值
“AI下半场”的瓶颈: AI发展的主线瓶颈已从模型训练转移到如何定义好的任务和环境,需要用通用方法解决有价值的实际问题。
结果导向的奖励机制: 成功的Agent任务(如数学和编程)应采用基于结果、白盒、规则化的奖励机制,而非过程导向或基于主观偏好的奖励,以避免“投机取巧”。
AI与人类任务差异: 人类认为简单或困难的任务,对Agent而言可能相反,例如软件工程对Agent可能比客服更容易,因为前者有更清晰的环境和奖励。
Agent的应用分类: 任务可分为注重可靠性(如客服,需要Pass^k指标)和注重创造力(如科学发现,允许多次失败)两种,以及不同深广度的任务,Agent需要针对性优化。
AI生态与未来展望
创业公司的机会: 大模型能力溢出为创业公司带来机会,尤其是在设计“超越ChatGPT”的新型交互方式上,因为Super App(如ChatGPT)会形成路径依赖,为新入者留下空间。
Agent生态的构建: 未来Agent生态的重要方向包括长期记忆(Long-Term Memory)、内生奖励机制(Intrinsic Reward)和多智能体系统(Multi-Agent System),对应OpenAI的创新者(L4)和组织者(L5)框架。
中心化与去中心化: AI世界可能呈现出巨头公司推动中心化Super App与个体赋能的去中心化Agent网络并存的局面,形成一个既单极又多元的世界。
未来Agent的演化: 预测未来12-24个月,模型公司的Chatbot系统将演化为Agent系统,出现更多类似Cursor的新型Copilot产品,Agent基础设施也将围绕其运行,但短期内仍将偏向中心化Super App。