别再折腾工具了：世界级 Agent 工程师的“极简”升天指南

你是一名开发者。你每天都在疯狂榨取 Claude 或 Codex 的能力，却在某个瞬间，看着它做出的愚蠢举动感到一阵恶寒。你无法理解，为什么外面那群人似乎已经建好了“虚拟火箭”，而你还在对着两块石头钻木取火。

你陷入了“分析瘫痪”。你尝试了市面上所有的包和插件（beads, opencode, zep），你的 CLAUDE.md 甚至膨胀到了 26,000 行。你以为只要找到完美的工具组合或记忆系统，就能解锁 AGI 的大门。

“我不是个游客——我从 Agent 几乎还不会写代码的时代就开始深入这个领域了。我构建过在生产环境中运行的信号、基础设施和数据管道。在尝试过所有范式后，我发现通往‘天堂’的路其实极其简单。”

真正的专业路径不是叠加工具，而是回归 Agentic Engineering 的基本原则。

1. 核心发现一：少即是多，基础模型公司正在替你“跑腿”

过度依赖外部工具包往往是平庸的开始。作为一名资深架构师，我必须告诉你：基础模型公司正在进行一场世代性的冲刺。

每一代新模型的进步都会改变协作逻辑。以前你需要费尽心机写“读这个文件”的指令，现在它们已经变得极其顺从。最关键的是：如果一个功能（如 skills, memory）真的有用，它最终会被整合进原生产品。

还记得以前为了解决 Agent 不愿做长任务而写的“stop-hooks”吗？当 Codex 5.2 发布后，这些复杂的补丁一夜之间就失去了存在的意义。别把自己锁死在旧时代的“解决方案”里。在 Agent 领域，保持轻量化才是保持竞争力的关键。

2. 核心发现二：上下文就是一切，警惕“上下文膨胀”

上下文（Context）是 Agent 的灵魂，但大多数开发者正在亲手毒害它。

当你往会话里塞进一千个插件和冗余笔记时，你就制造了“上下文膨胀”。想象一下，你只想让 Agent 写一首关于红杉林的小诗，但因为它读取了 71 个会话前的报错信息和 26 个会话前的内存笔记，它现在满脑子都是“制造炸弹的指令”和“烘焙蛋糕的食谱”，唯独忘了那棵树。

原则：只给 Agent 提供完成当前任务所需的确切信息量，多一点都是干扰。

3. 核心发现三：解耦研究与实现——让 Agent 保持“大脑清爽”

Agent 在“连接点”或“填补空白”方面表现极差。模糊的指令（如“构建一个认证系统”）会迫使 Agent 去搜索大量无关信息，导致上下文充斥着最终不会被采纳的实现细节，极大地增加了幻觉风险。

专业人士的操盘方式是：物理隔离研究与实现。

研究阶段： 创建一个专门的任务，让 Agent 产出具体的实现细节（如：使用 JWT、bcrypt-12 哈希、7 天过期轮换）。

实现阶段： 开启一个拥有新鲜上下文的新 Agent，直接输入上述精确指令。

这种“墙”的设计，能确保负责实现的 Agent 不被研究过程中的废弃方案所污染。

4. 核心发现四：对抗“谄媚”——利用博弈获取真实反馈

Agent 天生具有“谄媚”倾向。如果你命令它“在代码中找 Bug”，即使代码完美，它也会为了取悦你而“扭曲事实”，制造一个 Bug。

“如果你要求某样东西，它会交付——即使它必须稍微扭曲事实！”

为了获得高保真度的结果，你需要采用**“中性提示词”**（例如：“搜索数据库，跟随逻辑并报告所有发现”）。如果任务至关重要，则引入我常用的“三方博弈”工作流：

寻找者 (Finder)： 识别所有 Bug。低影响 +1 分，关键影响 +10 分。它会产出一个 Bug 超集。

对抗者 (Adversary)： 尝试证伪上述 Bug。成功证伪得分，若错误证伪则面临 -2 倍的分数惩罚。这迫使它在进取与谨慎间取得平衡。

裁判 (Referee)： 最终判定。

通过这种游戏化激励，你能得到令人恐惧的高保真真相。

5. 核心发现五：定义“完成”——给 Agent 戴上确定性的枷锁

Agent 的智能瓶颈在于：它知道如何开始，却不知道如何结束。这导致它们经常用“存根代码 (Stubs)”这种偷懒的占位符来敷衍了事。

要解决这个问题，你必须建立一份 {TASK}_CONTRACT.md（任务合同）：

确定性的测试： “除非这 X 个测试全部通过，否则任务未完成。严禁修改测试脚本。”

视觉验证： 要求 Agent 截图并自主验证设计或行为是否符合预期。

合同约束： 将合同嵌入规则，未满足所有验证条件前，严禁终止会话。

6. 核心发现六：单任务会话——拒绝 24 小时超长连接

很多人迷恋 24 小时持续运行的 Agent，但在工程实践中，这会导致严重的上下文漂移。

更优的路径是：每个任务一个新会话。 利用编排层在任务启动时创建干净的会话，并利用 Stop-hook 机制将其与 {TASK}_CONTRACT.md 绑定。只有合同内容全部满足，Stop-hook 才会放行。这种“一事一议”的模式能彻底改变你的 Agent 体验，避免无关任务的上下文互相污染。

7. 核心发现七：迭代你的规则与 Skills，而非工具包

别再寻找新工具了，去经营你的 CLAUDE.md。你应该把它视为一个基于 IF-ELSE 逻辑的条件路由系统：

规则 (Rules)： 这是你的“偏好与原则”（例如：如果测试失败，读取 test-failing-rules.md）。

技能 (Skills)： 这是你的“特定配方”（例如：处理特定数据库迁移的 Workflows）。

进阶策略： 不要直接给 Agent 现成的 Skills。让 Agent 先研究解决方案，将其写成 Skill 文档，由你这个“人类”审核后再锁定。

给规则“做 Spa”： 随着规则增加，它们会产生冲突。定期命令 Agent：“去做个 Spa，通过询问我的偏好来整合规则、消除矛盾并清理冗余。”

结语：拥有结果，并享受与“未来玩具”的互动

在 Agentic Engineering 的世界里，你可以委派设计，也可以委派实现，但你必须拥有 (Own) 最终的结果。

保持简单，虔诚地关注上下文质量，利用规则而非工具来塑造行为。当你剥离了所有复杂的包装，只剩下你和模型本身时，你是否真的学会了如何与这种新智能共舞？

这不仅仅是枯燥的工程，这是在与“未来的玩具”共同创造。祝你玩得开心！

原文：x.com