EP5 面向长时运行应用开发的 Harness 框架设计

21分钟 ·2个月前

2

·

0

www.anthropic.com

Anthropic 于 2026 年 3 月 24 日发布的工程博客，核心是通过 Harness（执行框架）设计，让 Claude 实现数小时自主开发高质量前端与全栈应用，解决长时智能体编码的稳定性与质量问题。

一、核心问题

朴素单智能体在长任务中存在两大瓶颈：

上下文焦虑：上下文窗口占满后失焦、提前收尾，仅靠压缩无法根治。

自我评估偏差：模型自评过度宽容，设计 / 代码质量平庸、难发现问题。

二、核心方案：GAN 启发的多智能体架构

受生成对抗网络启发，把执行与评估分离，形成强反馈循环。

1. 前端设计（二智能体）

生成器：产出 HTML/CSS/JS 界面

评估器：按 4 大标准打分迭代（设计质量、原创性、工艺、功能），用 Playwright 真实交互评测

2. 全栈开发（三智能体）

Planner 规划器：把简短提示扩成完整产品规格，自动融入 AI 能力，不预设细枝末节避免错误级联。

Generator 生成器：按 Sprint 逐个实现功能，用 React/Vite/FastAPI 栈，带 Git 版本控制。

Evaluator 评估器：模拟用户点击测试 UI/API/DB，不达标则打回重改，解决 “好看但不能用” 的问题。

三、关键技术设计

上下文重置：清空窗口 + 结构化交接，解决上下文焦虑（Sonnet 4.5 必需）。

Sprint 契约：开发前先约定 “完成标准”，弥合需求与可测实现的差距。

模型迭代优化：Opus 4.5：需 Sprint 拆分 + 上下文重置，可连续运行 6 小时。
Opus 4.6：原生能力提升，可去掉 Sprint，连续工作超 2 小时，评估仅在能力边界外任务才必要。

四、效果验证

复古游戏制作工具：完整框架输出可运行、带 AI 辅助；单智能体版核心逻辑失效。

浏览器 DAW 音乐工作站：简化框架 3 小时 50 分、成本 $124.7，产出具备核心编曲 / 混音 / 录制能力。

五、核心结论

Harness 设计是长时智能体编码的关键，生成 - 评估分离效果显著。

模型越强，框架可越简单，但评估器在能力边界外始终有价值。

模型迭代后要持续精简 Harness，去掉不再 “承重” 的组件，探索新组合。

在小宇宙打开