2025年12月,AI领域发生了一场悄无声息的革命,彻底颠覆了工程师的工作方式。在本期节目中,AI Jason将揭示这场巨变背后的秘密,并首次系统性阐述“驾驭工程学”(Harness Engineering)这一全新范式,它正是释放新一代AI模型处理超长、复杂任务潜力的关键所在。
曾记否,AutoGPT等早期自主代理因模型限制而屡屡失败?AI Jason指出,自2025年底模型能力实现阶跃后,我们正从“Copilot”式助手,迈向能够7x24小时自主执行复杂任务的“长时运行智能体”时代。他将深入剖析OpenAI、Anthropic和Vercel等顶级团队的内部实验,揭示他们如何通过构建“约束系统”和采用极简工具,成功驾驭这些强大的AI,并解释了为何一个简单的Bash命令有时比复杂的专用工具更有效。
**您将了解到:**
- 2025年12月究竟发生了什么,让AI工程师的工作被彻底颠覆?
- 什么是“Harness Engineering”?为什么说它是释放AI模型全部潜力的关键,而不仅仅是又一个提示工程的噱头?
- 为什么Vercel放弃复杂的专用AI工具,仅用一个简单的Bash命令就将智能体成功率从80%提升到100%?
- 如何像Anthropic和OpenAI一样,为AI智能体构建能够处理超长周期任务的“约束系统”,避免项目陷入混乱?

**💡时点内容 | Key Topics**
* 01:36 AI的2025年12月巨变:AI Jason指出,自2025年12月起,AI模型实现了阶梯式提升,首次能够胜任全自动、长周期的运行任务。他认为,这标志着行业从简单的AI助手转向了我们一直梦想的模式,即“当我们在睡觉的时候,AI可以7天24小时不间断地为我们工作。”
* 02:07 从Copilot到自主代理:AI Jason分析了Open Interpreter的爆发式增长,并将其视为开启2026年最大范式转变的关键项目。他强调,我们正在从基于简单任务的“Copilot”式AI代理,转向那种“永远在线,随时待命,能够自主地完成超级复杂的协同工作”的全自动AI代理。
* 02:38 Harness Engineering:新范式定义:AI Jason将“驾驭工程学”定义为提示工程、上下文工程的进化版,并指出其关注点已从单次循环的性能优化转向长周期任务。他认为,其核心在于“如何设计一个能跨越不同会话、由多个不同代理协同工作的系统”,并强调为特定垂直领域构建自动化智能体是未来六个月的巨大机会。
* 05:43 自主系统的三大原则:AI Jason总结了长时运行智能体系统的三点核心经验。他强调,设计的关键在于创造一个“清晰可读”的环境,通过快速反馈循环进行有效验证,并且要更信任模型,即“给模型提供最大化的上下文,以及它们原生就能理解的通用工具,然后……让它像人类一样去自由探索。”
* 08:48 Anthropic的干净状态工作流:AI Jason分享了Anthropic的实验案例,透露了初代智能体倾向于一次性做太多事并过早宣布任务完成的问题。他指出,解决方案是设计一个两步走的工作流,通过“初始化智能体”建立环境和任务清单,再由“编码智能体”进行增量开发,并强调“要求模型把进度提交到 Git”是恢复环境干净状态的最佳方法。
* 11:53 代码库即事实来源:AI Jason介绍了OpenAI的相似理念,指出他们将整个代码仓库本身打造为一个知识系统或“事实的来源”。他解释道,OpenAI通过将文档系统化、版本化非代码产物,并引入程序化工作流来强制执行架构原则,从而让AI智能体在需要时能准确找回信息,实现了信息的“渐进式披露”。
* 12:24 极简工具的惊人效率:AI Jason分享了Vercel重构Text-to-SQL智能体的经验,强调了一个反直觉的发现。他透露,当他们删掉大部分专用工具,只保留一个“单一的bash命令工具”后,智能体的成功率从80%跃升至100%。他认为,这背后是相通的底层逻辑,即大模型更熟悉通用的命令行工具。
**📺相关链接与资源**

