
EP6 Agent Harness(智能体框架)的解剖来源:x.com 日期:2026-04-17
EP5 面向长时运行应用开发的 Harness 框架设计https://www.anthropic.com/engineering/harness-design-long-running-apps Anthropic 于 2026 年 3 月 24 日发布的工程博客,核心是通过 Harness(执行框架)设计,让 Claude 实现数小时自主开发高质量前端与全栈应用,解决长时智能体编码的稳定性与质量问题。 一、核心问题 朴素单智能体在长任务中存在两大瓶颈: 1. 上下文焦虑:上下文窗口占满后失焦、提前收尾,仅靠压缩无法根治。 2. 自我评估偏差:模型自评过度宽容,设计 / 代码质量平庸、难发现问题。 二、核心方案:GAN 启发的多智能体架构 受生成对抗网络启发,把执行与评估分离,形成强反馈循环。 1. 前端设计(二智能体) * 生成器:产出 HTML/CSS/JS 界面 * 评估器:按 4 大标准打分迭代(设计质量、原创性、工艺、功能),用 Playwright 真实交互评测 2. 全栈开发(三智能体) * Planner 规划器:把简短提示扩成完整产品规格,自动融入 AI 能力,不预设细枝末节避免错误级联。 * Generator 生成器:按 Sprint 逐个实现功能,用 React/Vite/FastAPI 栈,带 Git 版本控制。 * Evaluator 评估器:模拟用户点击测试 UI/API/DB,不达标则打回重改,解决 “好看但不能用” 的问题。 三、关键技术设计 * 上下文重置:清空窗口 + 结构化交接,解决上下文焦虑(Sonnet 4.5 必需)。 * Sprint 契约:开发前先约定 “完成标准”,弥合需求与可测实现的差距。 * 模型迭代优化:Opus 4.5:需 Sprint 拆分 + 上下文重置,可连续运行 6 小时。 Opus 4.6:原生能力提升,可去掉 Sprint,连续工作超 2 小时,评估仅在能力边界外任务才必要。 四、效果验证 * 复古游戏制作工具:完整框架输出可运行、带 AI 辅助;单智能体版核心逻辑失效。 * 浏览器 DAW 音乐工作站:简化框架 3 小时 50 分、成本 $124.7,产出具备核心编曲 / 混音 / 录制能力。 五、核心结论 1. Harness 设计是长时智能体编码的关键,生成 - 评估分离效果显著。 2. 模型越强,框架可越简单,但评估器在能力边界外始终有价值。 3. 模型迭代后要持续精简 Harness,去掉不再 “承重” 的组件,探索新组合。
EP4 《大模型搭建知识库》-Andrej Karpathy原帖:https://x.com/karpathy/status/2039805659525644595 大模型知识库 最近我发现一个非常实用的方法:利用大语言模型(LLM)为各类研究方向搭建个人知识库。这样一来,我近期消耗的 token 里,很大一部分不再用于处理代码,而是用于处理知识——这些知识以 Markdown 文件和图片的形式存储。最新的大模型在这方面表现相当出色。 数据导入 我会把各类原始文档(文章、论文、代码库、数据集、图片等)统一归档到 raw/ 目录下,再用大模型逐步“编译”成一套知识库,本质就是按目录结构组织的一系列 .md 文件。 知识库会包含所有原始资料的摘要、反向链接,还会按概念对资料进行分类、撰写对应词条,并把所有内容相互关联。 我习惯用 Obsidian 网页剪藏插件把网页文章转成 Markdown,再通过快捷键把相关图片批量下载到本地,方便大模型直接引用。 编辑环境 我把 Obsidian 当作“前端”IDE,用来查看原始资料、编译后的知识库以及衍生的可视化内容。 重点是:整个知识库的内容都由大模型撰写和维护,我几乎不直接手动修改。我也试过一些 Obsidian 插件来用其他形式呈现内容,比如用 Marp 制作幻灯片。 问答交互 真正有意思的是,当知识库规模足够大之后(比如我最近的研究知识库已有约 100 篇文章、近 40 万字),就可以向大模型智能体提出各种复杂问题,它会自主检索、梳理并给出答案。 我原本以为必须用上复杂的检索增强生成(RAG),但在这种中小规模下,大模型能自动维护索引文件和所有文档的精简摘要,轻松读取所有关键相关内容,效果已经很好。 结果输出 我不满足于只在文本或终端里得到答案,更喜欢让模型直接生成 Markdown 文件、Marp 格式幻灯片或 Matplotlib 图表,再回到 Obsidian 里查看。根据不同查询需求,还可以输出更多可视化格式。 我通常会把这些输出结果“归档”回知识库,让内容更完善,方便后续查询。也就是说,我的每一次探索和提问,都在持续为知识库“增值”。 内容校验 我会让大模型对知识库做一些“健康检查”,比如发现数据不一致、补全缺失信息(结合联网搜索)、挖掘潜在关联以生成新词条等,逐步清理内容、提升整体数据完整性。大模型还很擅长提出值得进一步探究的问题。 额外工具 我还自己开发了一些辅助工具,比如随手写了一个简单的知识库搜索引擎,既可以在网页界面直接使用,也更常通过命令行交给大模型调用,作为处理复杂查询的工具。 后续探索 随着知识库不断扩大,自然而然会想到结合合成数据生成与微调,让大模型把这些知识“刻进”模型权重里,而不只是依赖上下文窗口。 总结 从多个来源收集原始数据 → 由大模型编译为 Markdown 知识库 → 大模型通过各类命令行工具进行问答并持续优化知识库 → 全程在 Obsidian 中查看。 几乎不需要手动编写或编辑知识库,所有内容都由大模型打理。我认为这一方向完全可以诞生一款极具潜力的全新产品,而不只是一堆临时拼凑的脚本。
EP3 如何构建自己的AI Agent讨论内容基于:I want to build an AI agent today 智能章节 00:03 AI智能体开发课程介绍及搭建目标 本章节主要围绕用大语言模型开发自有 AI 智能体展开讨论。提到课程将涉及智能体核心原理、工具选择、流程设计及测试优化等内容。还介绍了 AI 智能体实战大课,目前缺乏让零基础者做出智能体的完整课程,说话人 2 整合资料、借助 Claude 形成教程,文章分 8 部分,目标是让读者看完能搭建首个 AI 智能体。 01:28 智能体工作原理、组件角色及框架本质探讨 本章节主要讨论智能体核心工作原理。所有智能体有基本循环,用户输入进入大型语言模型,模型决定直接回应或调用工具,工具结果再反馈到模型直至任务完成。语言模型如大脑负责思考,工具如手做具体事,记忆似记事本增强连贯性。不同框架实现智能体本质围绕核心循环,只是抽象和编程接口不同。 02:56 增强语言模型在基础模型上新增三大能力 本章节讨论了增强的语言模型在基础模型上增加的核心能力。增强模型在只能处理文本输入输出的基础模型上增加了三大能力,分别是工具调用,可调用计算器、数据库查询等外部工具,通过JSON schema描述;检索能力,可从搜索引擎等查找相关信息;记忆能力,能保存对话历史和中间结果供后续使用。 03:50 固定工作流与智能体的适用场景及选择建议 本章节讨论了固定工作流和智能体的选择问题。工作流是完全确定的流程,适合步骤明确、无变化的任务,更省钱;智能体适用于开放性任务,需大模型动态决定步骤,成本较高。大部分简单场景无需智能体,合理方式是先从简单工作流做起,任务变复杂时再考虑升级成智能体。 04:56 五大核心工作流模式设计及适用场景介绍 本章节围绕五大核心工作流模式展开,包括它们的设计与适用场景。prompt链是拆分大任务,上一步输出作下一步输入,适合明确子任务顺序的情况;路由是用分类器将输入分类,用不同prompt处理,适用于多种输入有不同处理逻辑;并行化可同时跑无依赖的LLM调用;orchestrator workers适合复杂、无法提前规划步骤的任务;evaluator optimizer有生成和评估LLM,适用于有清晰评价标准的任务。 08:03 构建个人AI智能体的步骤与平台选择建议 本章节聚焦如何构建属于自己的AI智能体。很多人初涉会被框架、工具弄晕,可先明确智能体要做的事并拆分步骤,用5个实例测试没问题后再增加复杂功能。构建时无需一开始成框架大师,可从Anthropic或Openai选其一,前者适合多工具操作等场景,后者适合快速做产品的场景。 09:25 智能体使用需明确目标、数据、操作及规则 本章节讨论了智能体使用需明确的4个关键点。一是明确智能体最终要产生的结果,如写总结、处理客户请求等;二是想好完成任务所需数据,如联网搜索、读文件等;三是规定智能体可进行的操作,如发邮件、修改文件等;四是设定规则,包括输出格式、语言风格及未知问题处理方式。 10:21 利用对话模型辅助智能体设计及开发规划 本章节讨论了设计智能体时如何利用 AI。指出若想清楚四个方面,首个版本的智能体可较快落地。介绍了高效方法,即在写代码前用 Claude 或 ChatGPT 等对话模型,将想法告知它以补充完善细节。还提到可给其特定 prompt,让它输出智能体详细设计、系统 prompt、工具列表,规划开发路线图并生成测试用例。 11:21 智能体设计公式及加密货币研究助手示例 本章节主要讨论了设计有用智能体的通用公式。说话人2表示可将智能体看作角色、目标、工具、规则和输出格式五个部分的组合。还举例说明,如做加密货币项目研究助手,角色是研究员,目标是查找信息并总结,工具包括网页搜索等,规则是标明结论出处等,输出为要点总结等形式,让说话人1明白了用法。 12:30 新手入门智能体练手项目及应用场景介绍 本章节主要讨论了新手可练手的智能体类型。说话人2认为新手没必要一开始就搞多智能体协作,可从5种智能体中选一个。包括能上网查资料总结的research agent、处理内容的content agent,说话人1还补充了处理业务流程的workflow agent、理解知识库的personal knowledge agent和操作电脑文件执行命令的operator agent,每种都有具体应用场景。 13:40 Anthropic搭建智能体的适用场景与设计方法 本章节主要讨论了使用Anthropic搭建智能体的相关问题。Anthropic适合解决需频繁操作文件、执行命令、写代码等复杂任务,核心流程是分配任务并提供工具让其自动循环执行。还介绍了设计研究总结、文件写作智能体的角色、目标、工具、规则和输出,最后提到向AI描述需求可节省时间,能得到系统prompt等内容。 16:42 OpenAI构建智能体的适用场景与实现方法 本章节围绕用Openai构建智能体展开,介绍其适合场景,如快速将原型做成产品,支持多智能体交接等。阐述开发到部署流程,以支持工单自动分类为例说明实现方法,还提及扩展自定义功能、使用托管工具的方式。最后指出搭建前要想清目标、任务、工具和输出格式等关键问题,AI可协助生成指令、集成工具等。 20:03 设计智能体的注意事项与搭建推进步骤 本章节主要讨论设计智能体的注意事项及搭建步骤。设计时要避免初学者误区,职责范围定得越具体越好,输出结果要有清晰格式并给具体例子,按需增加工具,用真实混乱输入测试。搭建时先写目标,用AI生成详细SPEC,先做最简可跑版本,跑通核心流程,用真实数据测试,再按需优化。 22:08 智能体搭建易踩坑及避免、搭建要点 本章节围绕智能体搭建展开讨论。指出做智能体最易踩的坑是想做全能超级智能体,塞过多功能致混乱。避免方法是从简单任务开始,配一到两个工具,用5到10个实例测试,跑通后再加新能力。搭建首个智能体要明确要解决的问题、所用工具、使用规则、输出样子,选好模型,还可用AI辅助设计完善。 23:22 智能体工具选择、设计及调用方法探讨 本章节围绕智能体工具的选择和设计展开。指出智能体能力并非取决于工具数量,选工具要少而精,判断依据是任务是否语言模型无法完成。设计工具函数要遵循一个工具只做一件事、命名清晰的原则。让智能体知道何时用工具需详细命名和描述工具,并用实例测试,不对则调整。 25:17 智能体短期与长期记忆区别及适用场景 本章节主要讨论智能体的记忆机制,包括短期记忆和长期记忆的区别与使用场景。短期记忆是智能体在与用户对话时记住之前的对话内容,对话结束记忆清空;长期记忆类似知识库,可保存上传文档、笔记、数据库内容,供智能体随时查询,适用于需反复利用信息和积累知识的场景。 26:00 智能体记忆添加判断、常见错误及避免方法 本章节围绕智能体记忆设计展开讨论。说话人2指出判断是否给智能体加记忆及加哪种记忆,可问两个问题,若需记对话内容则要短期记忆,需查资料、保存信息或中间结果则要长期记忆,不需要就不用加。添加记忆功能时,要先跑通核心功能,遇到记忆瓶颈再扩展,避免一上来就搞复杂技术。 27:00 用 AI 生成测试用例提升智能体健壮性 本章节讨论了如何用 AI 自动生成测试用例以使智能体更健壮。说话人 2 建议直接告知 AI 智能体的任务,让其生成 15 个真实用户可能的输入内容,包括模糊、易混淆甚至错误输入,还可让 AI 设计边缘情况的例子,以此全方位考验智能体,看其能否应对现实场景挑战。 27:32 智能体测试要点及优化错误的方法 本章节讨论了测试智能体的注意事项。一是要用用户真实会输入的语言进行测试,例如“为什么我又被收费了”而非专业表述。二是当智能体出错时,一次只改一个地方,分析是提示不清晰、输出格式未确定、缺少工具还是规则,然后不断逼近最优解。 28:03 多智能体系统适用场景及使用建议 本章节主要围绕多智能体系统展开讨论。指出多数情况下一个智能体就能解决问题,只有任务可明确拆分成不同阶段或需不同技能时才需多智能体。强调使用多智能体前要确定单个智能体无法完成任务,且各智能体有明确分工和权限划分。还建议从简单的主从模式开始,避免一开始就采用复杂或完全自治的系统。 29:04 AI智能体决策咨询及开发内容总结 本章节主要讨论了使用AI辅助决策是否采用多智能体的问题。说话人2建议直接向AI描述要完成的任务,让其判断用一个还是多个智能体更好,若用多个智能体,AI会给出角色划分建议及原因,说话人可据此做决定。最后两人总结了当天关于AI智能体从入门到实践的关键步骤及开发智能体系统的内容。
EP2 聊聊OpenClaw作者的《以模型升级提升开发效率》《Shipping at Inference-Speed》 通过播客的方式介绍这篇文章,该文章是OpenClaw的作者Steipete对2025年AI驱动开发范式变革的深度复盘。核心围绕GPT-5.2-Codex如何彻底重塑其工作流,揭示了从“手动编码”到“AI推理速度交付”的质变。
EP1 微软GPT-5今日上线:AI推理编码能力全线升级微软正将OpenAI迄今最先进的GPT-5模型深度整合至其广泛产品线中,旨在为消费者、企业和开发者提供增强的推理能力、优化的编码以及更智能的聊天体验。此次集成利用了GPT-5在Azure上训练的优势,并通过严格的安全测试,确保了其强大的功能和可靠性,并已即日起全面上线。 GPT-5核心能力与战略整合 * 核心能力: 引入新的推理能力,显著改进编码和聊天功能。 * 训练平台: GPT-5在Azure上训练,包含OpenAI最新的推理模型和高效模型。 * 应用范围: 覆盖消费者、企业和开发者场景,通过实时路由智能匹配工具。 面向不同用户群体的产品赋能 * 企业与消费者用户: 通过Microsoft 365 Copilot和Microsoft Copilot获得强大的AI推理能力,处理复杂任务并提供快速创意响应。 * 开发者: 在GitHub Copilot和Visual Studio Code中访问GPT-5,用于编写、测试和部署代码,尤其擅长长流程代理任务。 * Azure AI Foundry用户: 即日起可在Azure AI Foundry中访问最新的GPT-5模型,并享受企业级安全、合规和隐私保护。 重点产品中的GPT-5功能升级 * Microsoft 365 Copilot: 增强复杂问题推理、长对话跟踪和用户上下文理解,可处理邮件、文档和文件推理。 * Microsoft Copilot: 作为日常AI助手,通过“智能模式”免费提供GPT-5能力,支持问答、写作和图像生成。 * GitHub Copilot与Visual Studio Code: 开发者可在GitHub Copilot Chat、VS Code及GitHub Mobile中选择GPT-5进行代码开发和代理任务。 * Azure AI Foundry: 提供所有GPT-5模型,并通过AI驱动的协调层(模型路由器)根据任务复杂度、性能和成本效率选择最佳模型。 安全性与即时可用性 * 安全测试: 微软AI红队对GPT-5推理模型进行了严格安全测试,显示出强大的安全防护能力。 * 安全表现: 在恶意软件生成、欺诈自动化等多种攻击模式下,表现出比以往OpenAI模型更强的安全特性。 * 即时上线: 所有升级和GPT-5模型功能均已即日起向微软的消费者、开发者和企业用户开放。