Anthropic 于 2026 年 3 月 24 日发布的工程博客,核心是通过 Harness(执行框架)设计,让 Claude 实现数小时自主开发高质量前端与全栈应用,解决长时智能体编码的稳定性与质量问题。
一、核心问题
朴素单智能体在长任务中存在两大瓶颈:
- 上下文焦虑:上下文窗口占满后失焦、提前收尾,仅靠压缩无法根治。
- 自我评估偏差:模型自评过度宽容,设计 / 代码质量平庸、难发现问题。
二、核心方案:GAN 启发的多智能体架构
受生成对抗网络启发,把执行与评估分离,形成强反馈循环。
1. 前端设计(二智能体)
- 生成器:产出 HTML/CSS/JS 界面
- 评估器:按 4 大标准打分迭代(设计质量、原创性、工艺、功能),用 Playwright 真实交互评测
2. 全栈开发(三智能体)
- Planner 规划器:把简短提示扩成完整产品规格,自动融入 AI 能力,不预设细枝末节避免错误级联。
- Generator 生成器:按 Sprint 逐个实现功能,用 React/Vite/FastAPI 栈,带 Git 版本控制。
- Evaluator 评估器:模拟用户点击测试 UI/API/DB,不达标则打回重改,解决 “好看但不能用” 的问题。
三、关键技术设计
- 上下文重置:清空窗口 + 结构化交接,解决上下文焦虑(Sonnet 4.5 必需)。
- Sprint 契约:开发前先约定 “完成标准”,弥合需求与可测实现的差距。
- 模型迭代优化:Opus 4.5:需 Sprint 拆分 + 上下文重置,可连续运行 6 小时。
Opus 4.6:原生能力提升,可去掉 Sprint,连续工作超 2 小时,评估仅在能力边界外任务才必要。
四、效果验证
- 复古游戏制作工具:完整框架输出可运行、带 AI 辅助;单智能体版核心逻辑失效。
- 浏览器 DAW 音乐工作站:简化框架 3 小时 50 分、成本 $124.7,产出具备核心编曲 / 混音 / 录制能力。
五、核心结论
- Harness 设计是长时智能体编码的关键,生成 - 评估分离效果显著。
- 模型越强,框架可越简单,但评估器在能力边界外始终有价值。
- 模型迭代后要持续精简 Harness,去掉不再 “承重” 的组件,探索新组合。

