EP78：探究Anthropic规模化托管智能体，实现“脑手分离”

本文章《Scaling Managed Agents: Decoupling the brain from the hands》揭示Anthropic 开发的“托管智能体”（Managed Agents）是一项旨在处理长周期（Long-horizon）任务的托管服务。其核心设计理念是通过“解耦”来解决 AI 智能体开发中的一个根本挑战：即传统“控制程序”（Harness）往往包含对模型能力的过时假设。

通过将智能体虚拟化为三个独立接口——会话（Session）、控制程序（Harness）沙箱（Sandbox），该架构实现了“大脑”（Claude 及其控制逻辑）与“双手”（执行工具和环境）的完全分离。这种转变不仅显著提升了系统的可靠性和安全性，还通过按需分配资源将中位首字延迟（TTFT）降低了约 60%。

1. 核心挑战：过时的架构假设

在智能体开发中，控制程序（Harness）通常负责调用模型并路由其工具调用。然而，这些程序往往基于模型当时的局限性进行设计，随着模型能力的提升，这些设计会成为“死重”（Dead weight）。

2. 架构转型：从“宠物”到“生计”

为了实现规模化，Managed Agents 采用了计算机科学中经典的虚拟化模式，将组件从相互依赖的“宠物型”转变为可互换的“生计型”（Cattle）。

2.1 解耦大脑与双手

大脑（Brain）： 由 Claude 及其控制程序组成。它现在独立于容器运行。

双手（Hands）： 即沙箱和工具。大脑通过简单的接口 execute(name, input) → string 调用它们。

收益： 容器成为可随时替换的资源。如果容器死机，大脑会捕获工具调用错误并选择重试，系统会根据标准方案重新初始化新容器。

2.2 控制程序的弹性设计

控制程序本身也实现了无状态化。

由于会话日志存储在外部，当控制程序崩溃时，新启动的程序可以通过 wake(sessionId) 唤醒，获取事件日志并从最后一个事件恢复，无需维持长时间的运行状态。

3. 会话管理与上下文工程

Managed Agents 重新定义了“会话”与模型“上下文窗口”的关系，解决了长周期任务中的信息丢失问题。

外部化存储： 会话被视为存储在 Claude 上下文窗口之外的持久对象。

灵活检索： 通过 getEvents() 接口，智能体可以灵活选择、重放或回溯事件流，而不仅仅是保留最后的几千个 Token。

可恢复的上下文工程： 所有的上下文转换（如压缩或修剪）都在控制程序中完成，而原始会话日志保持完整且可恢复。这种设计保证了系统能够适应未来模型对上下文管理的动态需求。

4. 性能与安全性优化

通过这种解耦架构，系统在安全性和运行效率上获得了显著提升。

4.1 安全边界：结构化隔离

为了防止提示词注入（Prompt Injection）导致凭据泄露，Managed Agents 实施了严格的隔离策略：

凭据不可见： 身份验证令牌（如 Git Token）存储在沙箱之外的保险库中。

代理调用： 智能体通过专用代理调用工具（如通过 MCP）。控制程序和沙箱从不直接接触或感知原始凭据。

4.2 性能跃升：按需分配

由于“大脑”不再需要预先驻留在特定的容器中，系统实现了按需分配：

TTFT 降低： 只有在模型真正需要调用工具时才会初始化容器。

数据表现： 中位首字延迟（p50 TTFT）下降了约 60%，p95 延迟下降了超过 90%。

5. 结论：面向未来的元控制程序

Managed Agents 本质上是一个“元控制程序”（Meta-harness）。它不针对特定的任务逻辑做过度假设，而是建立了一套通用的接口标准：

操作状态的能力（通过会话接口）。

执行计算的能力（通过沙箱接口）。

横向扩展的能力（多大脑与多双手的自由组合）。

这种设计确保了随着 Claude 智能水平的不断进化，底层的托管架构依然能够通过稳定的接口承载更复杂、更高价值的智能体工作负载。

**📺播客说明**

本播客采用虚拟主持人进行播客翻译的音频制作，因此有可能会有一些地方听起来怪怪的。如想了解更多信息，请关注微信公众号"西经东译"获取AI最新资讯。如有后续想要听的其他外文播客，也欢迎联系微信：mayday2303。