这期聊的不是一个“更聪明”的新Agent,而是 Claude Code 这类可落地代码Agent到底怎么被工程化做出来。核心观点很明确:真正决定系统能不能用的,不只是模型推理,而是权限控制、上下文压缩、工具执行、失败恢复和状态持久化这些外部 harness。我们还会讲它为什么用极简 while-loop 搭配重型运行时设计,以及这对未来自主软件工程意味着什么。
00:00 背景与动机
02:05 方法全景
03:58 关键模块拆解
09:22 训练与闭环
10:48 实验支撑什么
12:21 图表导读
13:43 价值与局限
Source: paper | arxiv.org
