Anthropic Labs 工程博客发布了一篇关于 AI agent 长时间编程任务的实验报告——当你让 AI 连续工作几个小时、独立构建完整应用，什么东西会系统性地出问题？

我们聊文中的两个核心发现：context anxiety（模型感知到 context window 快满时的行为退化）和 self-evaluation 偏差（agent 系统性地高估自己代码的质量），以及 generator-evaluator 对抗架构如何让输出质量产生质变。我们同时也展望了当模型和harness持续进化，对未来工作方式的影响。

原文链接

Harness design for long-running application development

时间线

00:56 Agentic coding 和 AI 辅助写代码有什么区别

02:40 Context anxiety：模型快到极限时的行为退化

05:06 Self-evaluation 偏差：agent 高估自己代码质量

07:09 前端设计实验 + generator-evaluator 对抗架构

11:32 Full-stack 三 agent 实验：Planner + Generator + Evaluator

20:36 Agent observability：为什么现有监控工具不够用

24:01 双模态工作制：同步协作，与AI 自主运行

Disclaimer

本节目部分制作流程（包括语音生成）基于 AI 工具完成。但核心观点、分析框架及内容取舍，均由作者主导，并通过人与 AI 的交互迭代形成。AI 在本播客中承担的是增强表达效率的角色，而非独立创作主体。