EP123. Anthropic Workshop:构建可长时运行的智能体AI西经东译

EP123. Anthropic Workshop:构建可长时运行的智能体

74分钟 ·
播放数184
·
评论数0

AI智能体运行几分钟就“失忆”或“焦虑”?Anthropic的工程师将揭示如何构建能连续工作数小时甚至数天的持久性智能体。来自Anthropic应用AI团队的Ash Prabaker和Andrew Wilson,将深入剖析克服上下文、规划和自我评估三大障碍的核心技术,分享从模型权重到支撑框架(Harness)协同进化的实战心法。

一年前,Claude Code还在艰难地编写Bash命令,最多只能运行20分钟;一年后,它已能连续运行数天,甚至用自己编写代码。这段惊人的进化历程背后,是Anthropic坚持的“模型与框架协同进化”策略。本期节目中,嘉宾将详细拆解这一历程,从Claude 3.5 Sonnet能“看见”自己代码的“啊哈时刻”,到如今通过Agent SDK和精巧的“Harness”设计,让智能体不仅能完成任务,更能准确地评判自身工作,摆脱“半成品”陷阱。

您将了解到:

  • 为什么大多数AI智能体运行20分钟就会“失忆”或“焦虑”,Anthropic如何克服上下文、规划和自我评估这三大核心障碍?

  • 如何借鉴“生成对抗网络”(GANs)的理念,设计出一个“生成器”和一个“评估器”AI,让它们像人类团队一样通过对抗和协商来构建高质量应用?

  • 从紫色渐变到具备“设计品味”,Anthropic如何通过量化主观标准,训练AI智能体摆脱千篇一律的“AI通货”审美?

💡时点内容 | Key Topics

* [01:39] 长时智能体的三大挑战:Andrew Wilson归纳了构建长时运行AI智能体的三大核心挑战:有限的上下文窗口、模型较弱的规划能力,以及模型不擅长评判自身输出的倾向。他特别指出,模型可能会“阿谀奉承”,错误地认为半成品功能已经完成,这为后续的验证环节带来了困难。

* [05:09] 模型与框架的协同进化:Andrew Wilson阐述了提升智能体性能的两条路径:一是直接提升模型权重,二是优化围绕模型的支撑框架(Harness)。他回顾了从Claude.ai的“Artifacts”功能到Agent SDK的发布历程,并强调“每当我们发布一个新模型,总会伴随着一系列对Harness的重大更新”,两者实际上在共同进化。

* [11:20] “框架循环”构建范式:Andrew Wilson详细介绍了一套长时运行智能体的构建流程,该流程始于一个“初始化智能体”将模糊指令分解为持久化的功能列表和进度文件。他解释道,系统随后会进入一个“框架循环”,在全新的上下文窗口中逐一实现并测试功能,通过这种方式“把之前提到的所有概念层层叠加了起来”。

* [17:17] 生成对抗网络式框架:Ash Prabaker介绍了一种借鉴生成对抗网络(GANs)理念的协同框架,其中包含一个“生成器”模型负责构建,以及一个独立的“评估器”模型负责评判。他强调,将构建者和批评家角色分离是关键,因为“要把一个独立的‘批评家’调教得非常严苛,这在技术上是完全可行的”。

* [23:03] 构建前的“契约”协商:Ash Prabaker揭示了连接“生成器”和“评估器”的关键机制:在编写代码前,两个智能体通过协商共同定义“完成”的标准,形成一份“契约”。他认为,这种机制成功地“架起了一座桥梁,把‘用户故事’这种比较抽象的需求规格,转化成了更具体、可测试的断言”。

* [37:38] 长时智能体五大心法:Ash Prabaker最后总结了构建长时运行智能体的五点核心建议,包括使用对抗性评估器而非自我评估、利用结构化交接保证连贯性、量化主观质量标准等。他最终强调,成功的关键在于“真正地和模型待在一起,去阅读它生成的轨迹记录”,以便了解哪些脚手架需要调整。

📺相关链接与资源

[视频来源]《Anthropic Workshop: Build Agents That Run for Hours — Ash Prabaker & Andrew Wilson》

本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。