代泊404

6已订阅

代泊404

fireyang

单集更新

节目详情

EP6 Agent Harness（智能体框架）的解剖
来源：x.com 日期：2026-04-17
28分钟 · 1 个月前
1
0
EP5 面向长时运行应用开发的 Harness 框架设计
https://www.anthropic.com/engineering/harness-design-long-running-apps Anthropic 于 2026 年 3 月 24 日发布的工程博客，核心是通过 Harness（执行框架）设计，让 Claude 实现数小时自主开发高质量前端与全栈应用，解决长时智能体编码的稳定性与质量问题。一、核心问题朴素单智能体在长任务中存在两大瓶颈： 1. 上下文焦虑：上下文窗口占满后失焦、提前收尾，仅靠压缩无法根治。 2. 自我评估偏差：模型自评过度宽容，设计 / 代码质量平庸、难发现问题。二、核心方案：GAN 启发的多智能体架构受生成对抗网络启发，把执行与评估分离，形成强反馈循环。 1. 前端设计（二智能体） * 生成器：产出 HTML/CSS/JS 界面 * 评估器：按 4 大标准打分迭代（设计质量、原创性、工艺、功能），用 Playwright 真实交互评测 2. 全栈开发（三智能体） * Planner 规划器：把简短提示扩成完整产品规格，自动融入 AI 能力，不预设细枝末节避免错误级联。 * Generator 生成器：按 Sprint 逐个实现功能，用 React/Vite/FastAPI 栈，带 Git 版本控制。 * Evaluator 评估器：模拟用户点击测试 UI/API/DB，不达标则打回重改，解决 “好看但不能用” 的问题。三、关键技术设计 * 上下文重置：清空窗口 + 结构化交接，解决上下文焦虑（Sonnet 4.5 必需）。 * Sprint 契约：开发前先约定 “完成标准”，弥合需求与可测实现的差距。 * 模型迭代优化：Opus 4.5：需 Sprint 拆分 + 上下文重置，可连续运行 6 小时。 Opus 4.6：原生能力提升，可去掉 Sprint，连续工作超 2 小时，评估仅在能力边界外任务才必要。四、效果验证 * 复古游戏制作工具：完整框架输出可运行、带 AI 辅助；单智能体版核心逻辑失效。 * 浏览器 DAW 音乐工作站：简化框架 3 小时 50 分、成本 $124.7，产出具备核心编曲 / 混音 / 录制能力。五、核心结论 1. Harness 设计是长时智能体编码的关键，生成 - 评估分离效果显著。 2. 模型越强，框架可越简单，但评估器在能力边界外始终有价值。 3. 模型迭代后要持续精简 Harness，去掉不再 “承重” 的组件，探索新组合。
21分钟 · 2个月前
2
0
EP4 《大模型搭建知识库》-Andrej Karpathy
原帖：https://x.com/karpathy/status/2039805659525644595 大模型知识库最近我发现一个非常实用的方法：利用大语言模型（LLM）为各类研究方向搭建个人知识库。这样一来，我近期消耗的 token 里，很大一部分不再用于处理代码，而是用于处理知识——这些知识以 Markdown 文件和图片的形式存储。最新的大模型在这方面表现相当出色。数据导入我会把各类原始文档（文章、论文、代码库、数据集、图片等）统一归档到 raw/ 目录下，再用大模型逐步“编译”成一套知识库，本质就是按目录结构组织的一系列 .md 文件。知识库会包含所有原始资料的摘要、反向链接，还会按概念对资料进行分类、撰写对应词条，并把所有内容相互关联。我习惯用 Obsidian 网页剪藏插件把网页文章转成 Markdown，再通过快捷键把相关图片批量下载到本地，方便大模型直接引用。编辑环境我把 Obsidian 当作“前端”IDE，用来查看原始资料、编译后的知识库以及衍生的可视化内容。重点是：整个知识库的内容都由大模型撰写和维护，我几乎不直接手动修改。我也试过一些 Obsidian 插件来用其他形式呈现内容，比如用 Marp 制作幻灯片。问答交互真正有意思的是，当知识库规模足够大之后（比如我最近的研究知识库已有约 100 篇文章、近 40 万字），就可以向大模型智能体提出各种复杂问题，它会自主检索、梳理并给出答案。我原本以为必须用上复杂的检索增强生成（RAG），但在这种中小规模下，大模型能自动维护索引文件和所有文档的精简摘要，轻松读取所有关键相关内容，效果已经很好。结果输出我不满足于只在文本或终端里得到答案，更喜欢让模型直接生成 Markdown 文件、Marp 格式幻灯片或 Matplotlib 图表，再回到 Obsidian 里查看。根据不同查询需求，还可以输出更多可视化格式。我通常会把这些输出结果“归档”回知识库，让内容更完善，方便后续查询。也就是说，我的每一次探索和提问，都在持续为知识库“增值”。内容校验我会让大模型对知识库做一些“健康检查”，比如发现数据不一致、补全缺失信息（结合联网搜索）、挖掘潜在关联以生成新词条等，逐步清理内容、提升整体数据完整性。大模型还很擅长提出值得进一步探究的问题。额外工具我还自己开发了一些辅助工具，比如随手写了一个简单的知识库搜索引擎，既可以在网页界面直接使用，也更常通过命令行交给大模型调用，作为处理复杂查询的工具。后续探索随着知识库不断扩大，自然而然会想到结合合成数据生成与微调，让大模型把这些知识“刻进”模型权重里，而不只是依赖上下文窗口。总结从多个来源收集原始数据 → 由大模型编译为 Markdown 知识库 → 大模型通过各类命令行工具进行问答并持续优化知识库 → 全程在 Obsidian 中查看。几乎不需要手动编写或编辑知识库，所有内容都由大模型打理。我认为这一方向完全可以诞生一款极具潜力的全新产品，而不只是一堆临时拼凑的脚本。
5分钟 · 2个月前
3
0
EP3 如何构建自己的AI Agent
讨论内容基于：I want to build an AI agent today 智能章节 00:03 AI智能体开发课程介绍及搭建目标本章节主要围绕用大语言模型开发自有 AI 智能体展开讨论。提到课程将涉及智能体核心原理、工具选择、流程设计及测试优化等内容。还介绍了 AI 智能体实战大课，目前缺乏让零基础者做出智能体的完整课程，说话人 2 整合资料、借助 Claude 形成教程，文章分 8 部分，目标是让读者看完能搭建首个 AI 智能体。 01:28 智能体工作原理、组件角色及框架本质探讨本章节主要讨论智能体核心工作原理。所有智能体有基本循环，用户输入进入大型语言模型，模型决定直接回应或调用工具，工具结果再反馈到模型直至任务完成。语言模型如大脑负责思考，工具如手做具体事，记忆似记事本增强连贯性。不同框架实现智能体本质围绕核心循环，只是抽象和编程接口不同。 02:56 增强语言模型在基础模型上新增三大能力本章节讨论了增强的语言模型在基础模型上增加的核心能力。增强模型在只能处理文本输入输出的基础模型上增加了三大能力，分别是工具调用，可调用计算器、数据库查询等外部工具，通过JSON schema描述；检索能力，可从搜索引擎等查找相关信息；记忆能力，能保存对话历史和中间结果供后续使用。 03:50 固定工作流与智能体的适用场景及选择建议本章节讨论了固定工作流和智能体的选择问题。工作流是完全确定的流程，适合步骤明确、无变化的任务，更省钱；智能体适用于开放性任务，需大模型动态决定步骤，成本较高。大部分简单场景无需智能体，合理方式是先从简单工作流做起，任务变复杂时再考虑升级成智能体。 04:56 五大核心工作流模式设计及适用场景介绍本章节围绕五大核心工作流模式展开，包括它们的设计与适用场景。prompt链是拆分大任务，上一步输出作下一步输入，适合明确子任务顺序的情况；路由是用分类器将输入分类，用不同prompt处理，适用于多种输入有不同处理逻辑；并行化可同时跑无依赖的LLM调用；orchestrator workers适合复杂、无法提前规划步骤的任务；evaluator optimizer有生成和评估LLM，适用于有清晰评价标准的任务。 08:03 构建个人AI智能体的步骤与平台选择建议本章节聚焦如何构建属于自己的AI智能体。很多人初涉会被框架、工具弄晕，可先明确智能体要做的事并拆分步骤，用5个实例测试没问题后再增加复杂功能。构建时无需一开始成框架大师，可从Anthropic或Openai选其一，前者适合多工具操作等场景，后者适合快速做产品的场景。 09:25 智能体使用需明确目标、数据、操作及规则本章节讨论了智能体使用需明确的4个关键点。一是明确智能体最终要产生的结果，如写总结、处理客户请求等；二是想好完成任务所需数据，如联网搜索、读文件等；三是规定智能体可进行的操作，如发邮件、修改文件等；四是设定规则，包括输出格式、语言风格及未知问题处理方式。 10:21 利用对话模型辅助智能体设计及开发规划本章节讨论了设计智能体时如何利用 AI。指出若想清楚四个方面，首个版本的智能体可较快落地。介绍了高效方法，即在写代码前用 Claude 或 ChatGPT 等对话模型，将想法告知它以补充完善细节。还提到可给其特定 prompt，让它输出智能体详细设计、系统 prompt、工具列表，规划开发路线图并生成测试用例。 11:21 智能体设计公式及加密货币研究助手示例本章节主要讨论了设计有用智能体的通用公式。说话人2表示可将智能体看作角色、目标、工具、规则和输出格式五个部分的组合。还举例说明，如做加密货币项目研究助手，角色是研究员，目标是查找信息并总结，工具包括网页搜索等，规则是标明结论出处等，输出为要点总结等形式，让说话人1明白了用法。 12:30 新手入门智能体练手项目及应用场景介绍本章节主要讨论了新手可练手的智能体类型。说话人2认为新手没必要一开始就搞多智能体协作，可从5种智能体中选一个。包括能上网查资料总结的research agent、处理内容的content agent，说话人1还补充了处理业务流程的workflow agent、理解知识库的personal knowledge agent和操作电脑文件执行命令的operator agent，每种都有具体应用场景。 13:40 Anthropic搭建智能体的适用场景与设计方法本章节主要讨论了使用Anthropic搭建智能体的相关问题。Anthropic适合解决需频繁操作文件、执行命令、写代码等复杂任务，核心流程是分配任务并提供工具让其自动循环执行。还介绍了设计研究总结、文件写作智能体的角色、目标、工具、规则和输出，最后提到向AI描述需求可节省时间，能得到系统prompt等内容。 16:42 OpenAI构建智能体的适用场景与实现方法本章节围绕用Openai构建智能体展开，介绍其适合场景，如快速将原型做成产品，支持多智能体交接等。阐述开发到部署流程，以支持工单自动分类为例说明实现方法，还提及扩展自定义功能、使用托管工具的方式。最后指出搭建前要想清目标、任务、工具和输出格式等关键问题，AI可协助生成指令、集成工具等。 20:03 设计智能体的注意事项与搭建推进步骤本章节主要讨论设计智能体的注意事项及搭建步骤。设计时要避免初学者误区，职责范围定得越具体越好，输出结果要有清晰格式并给具体例子，按需增加工具，用真实混乱输入测试。搭建时先写目标，用AI生成详细SPEC，先做最简可跑版本，跑通核心流程，用真实数据测试，再按需优化。 22:08 智能体搭建易踩坑及避免、搭建要点本章节围绕智能体搭建展开讨论。指出做智能体最易踩的坑是想做全能超级智能体，塞过多功能致混乱。避免方法是从简单任务开始，配一到两个工具，用5到10个实例测试，跑通后再加新能力。搭建首个智能体要明确要解决的问题、所用工具、使用规则、输出样子，选好模型，还可用AI辅助设计完善。 23:22 智能体工具选择、设计及调用方法探讨本章节围绕智能体工具的选择和设计展开。指出智能体能力并非取决于工具数量，选工具要少而精，判断依据是任务是否语言模型无法完成。设计工具函数要遵循一个工具只做一件事、命名清晰的原则。让智能体知道何时用工具需详细命名和描述工具，并用实例测试，不对则调整。 25:17 智能体短期与长期记忆区别及适用场景本章节主要讨论智能体的记忆机制，包括短期记忆和长期记忆的区别与使用场景。短期记忆是智能体在与用户对话时记住之前的对话内容，对话结束记忆清空；长期记忆类似知识库，可保存上传文档、笔记、数据库内容，供智能体随时查询，适用于需反复利用信息和积累知识的场景。 26:00 智能体记忆添加判断、常见错误及避免方法本章节围绕智能体记忆设计展开讨论。说话人2指出判断是否给智能体加记忆及加哪种记忆，可问两个问题，若需记对话内容则要短期记忆，需查资料、保存信息或中间结果则要长期记忆，不需要就不用加。添加记忆功能时，要先跑通核心功能，遇到记忆瓶颈再扩展，避免一上来就搞复杂技术。 27:00 用 AI 生成测试用例提升智能体健壮性本章节讨论了如何用 AI 自动生成测试用例以使智能体更健壮。说话人 2 建议直接告知 AI 智能体的任务，让其生成 15 个真实用户可能的输入内容，包括模糊、易混淆甚至错误输入，还可让 AI 设计边缘情况的例子，以此全方位考验智能体，看其能否应对现实场景挑战。 27:32 智能体测试要点及优化错误的方法本章节讨论了测试智能体的注意事项。一是要用用户真实会输入的语言进行测试，例如“为什么我又被收费了”而非专业表述。二是当智能体出错时，一次只改一个地方，分析是提示不清晰、输出格式未确定、缺少工具还是规则，然后不断逼近最优解。 28:03 多智能体系统适用场景及使用建议本章节主要围绕多智能体系统展开讨论。指出多数情况下一个智能体就能解决问题，只有任务可明确拆分成不同阶段或需不同技能时才需多智能体。强调使用多智能体前要确定单个智能体无法完成任务，且各智能体有明确分工和权限划分。还建议从简单的主从模式开始，避免一开始就采用复杂或完全自治的系统。 29:04 AI智能体决策咨询及开发内容总结本章节主要讨论了使用AI辅助决策是否采用多智能体的问题。说话人2建议直接向AI描述要完成的任务，让其判断用一个还是多个智能体更好，若用多个智能体，AI会给出角色划分建议及原因，说话人可据此做决定。最后两人总结了当天关于AI智能体从入门到实践的关键步骤及开发智能体系统的内容。
30分钟 · 2个月前
4
0
EP2 聊聊OpenClaw作者的《以模型升级提升开发效率》
《Shipping at Inference-Speed》通过播客的方式介绍这篇文章，该文章是OpenClaw的作者Steipete对2025年AI驱动开发范式变革的深度复盘。核心围绕GPT-5.2-Codex如何彻底重塑其工作流，揭示了从“手动编码”到“AI推理速度交付”的质变。
22分钟 · 3个月前
2
0
EP1 微软GPT-5今日上线：AI推理编码能力全线升级
微软正将OpenAI迄今最先进的GPT-5模型深度整合至其广泛产品线中，旨在为消费者、企业和开发者提供增强的推理能力、优化的编码以及更智能的聊天体验。此次集成利用了GPT-5在Azure上训练的优势，并通过严格的安全测试，确保了其强大的功能和可靠性，并已即日起全面上线。 GPT-5核心能力与战略整合 * 核心能力: 引入新的推理能力，显著改进编码和聊天功能。 * 训练平台: GPT-5在Azure上训练，包含OpenAI最新的推理模型和高效模型。 * 应用范围: 覆盖消费者、企业和开发者场景，通过实时路由智能匹配工具。面向不同用户群体的产品赋能 * 企业与消费者用户: 通过Microsoft 365 Copilot和Microsoft Copilot获得强大的AI推理能力，处理复杂任务并提供快速创意响应。 * 开发者: 在GitHub Copilot和Visual Studio Code中访问GPT-5，用于编写、测试和部署代码，尤其擅长长流程代理任务。 * Azure AI Foundry用户: 即日起可在Azure AI Foundry中访问最新的GPT-5模型，并享受企业级安全、合规和隐私保护。重点产品中的GPT-5功能升级 * Microsoft 365 Copilot: 增强复杂问题推理、长对话跟踪和用户上下文理解，可处理邮件、文档和文件推理。 * Microsoft Copilot: 作为日常AI助手，通过“智能模式”免费提供GPT-5能力，支持问答、写作和图像生成。 * GitHub Copilot与Visual Studio Code: 开发者可在GitHub Copilot Chat、VS Code及GitHub Mobile中选择GPT-5进行代码开发和代理任务。 * Azure AI Foundry: 提供所有GPT-5模型，并通过AI驱动的协调层（模型路由器）根据任务复杂度、性能和成本效率选择最佳模型。安全性与即时可用性 * 安全测试: 微软AI红队对GPT-5推理模型进行了严格安全测试，显示出强大的安全防护能力。 * 安全表现: 在恶意软件生成、欺诈自动化等多种攻击模式下，表现出比以往OpenAI模型更强的安全特性。 * 即时上线: 所有升级和GPT-5模型功能均已即日起向微软的消费者、开发者和企业用户开放。
5分钟 · 10个月前
3
0

在互联网的世界里，“404”意味着迷失，但在《代泊404》，我们为你找到方向。这是一档聚焦互联网热点、新闻、新技术和个人思考的播客，带你探索数字时代的每一个角落。每一期节目，我们将深入讨论最新的互联网趋势、科技动态和行业新闻，分享对技术变革的独特见解和感悟。无论是人工智能的突破、元宇宙的探索，还是网络安全的热点话题，我们都将以轻松易懂的方式为你解读。同时，我们也会聊聊互联网文化、用户体验和那些被忽略的“小细节”，带你发现技术背后的故事。《代泊404》不仅是一档节目，更是一个为互联网爱好者打造的交流平台。无论你是科技发烧友，还是对互联网充满好奇的普通用户，都能在这里找到共鸣。让我们一起在数字世界中“代泊”，找到属于你的答案。