

构建生产级 AI Agent 的工程实战别再迷信模型能力:构建生产级 AI Agent 的 5 个工程真相 1. 引言:Agent 浪潮下的“工程冷思考” 在 Agent 领域,开发者往往陷入一种“算力崇拜”:认为只要换上更贵的模型,Agent 的表现就会脱胎换骨。然而现实是,即便堆砌最强的模型,你的 Agent 仍然可能在简单任务中反复“撞墙”。 作为 OpenClaw 的核心开发者,我们在实践中发现:Agent 的成功率往往不在于模型本身,而在于围绕它构建的“工程约束(Harness)”。如果模型是引擎,工程架构就是底座。本文将揭示构建生产级 Agent 的五个工程真相:成功不在于让模型“更聪明”,而在于让系统“更确定”。 2. 真相一:测试与约束(Harness)比模型本身更关键 决定一个 Agent 系统能否收敛的,往往是其外围的工程条件。我们将其总结为 Harness(工程约束) 的四个核心:验收基线(Acceptance Baseline)、执行边界(Execution Boundary)、反馈信号(Feedback Signal)以及回退手段(Fallback Measures)。 案例深思:从 Codex 到 Anthropic 的极限实验 * OpenAI Codex: 3 名工程师在 5 个月内产出百万行代码,其核心竞争力并非单纯的生成能力,而是为其配备了临时可观测性栈(Observability Stack)。通过 VictoriaLogs、Metrics 和 Traces,Agent 能够主动查询系统状态(如图 3 所示),在自验证闭环中修正行为,而非被动等待报错。 * Anthropic C 编译器实验: 在构建能编译 Linux 内核的编译器时,高性能模型在接近极限时会不断产生回归 Bug。最终项目得以推进,靠的是“高质量测试先行”以及引入 GCC 作为对照验证。 工程直觉 Agent 的本质是在概率空间搜索答案。如果没有清晰的自动化验证和执行边界,Agent 就会在“快反馈、错方向”的象限里高效地产生随机性。 “Agent 只有在有清晰测试的情况下,才会朝正确方向优化,否则只会高效地写 Bug。” 3. 真相二:上下文工程的核心是“分层”与“按需加载” 开发者常把上下文窗口(Context Window)当成垃圾桶。但从底层逻辑看,Transformer 注意力的复杂度是 O(n²)。随着上下文增加,关键信号会被噪声稀释,导致“上下文腐化(Context Rot)”。 从提示工程转向上下文工程 我们在 OpenClaw 的实践中强调,上下文必须进行生命周期管理: 1. 系统提示作为索引(Skills 模式): 避免预加载全量知识。系统提示应只保留 Skills 索引,完整文档按需加载。这种“延迟加载”能显著降低 Token 稀释风险。 2. MCP vs. CLI 的抉择: 需警惕模型上下文协议(MCP)带来的副作用。MCP 往往会一次性返回完整结果且无法在前端过滤,容易导致上下文迅速膨胀。相比之下,CLI 结合单句描述的 Skill 模式更易于控制和压缩。 3. 标识符保护协议: 在进行摘要或压缩时,绝对不要改动标识符(如 UUID、Hash、IP、Port、URL、文件名)。这些精确值一旦被“模糊化”,后续工具调用将引发毁灭性故障。 架构师视角: “克制”的上下文反而能带来最稳定的决策。 4. 真相三:工具设计的重心从 API 转向 ACI(Agent-Computer Interface) 工具定义的质量直接决定了 Agent 的行动上限。差的设计会让强模型变笨,而符合 ACI 原则 的设计则能让模型实现质跃。 从 API 到 ACI 的进化 ACI 要求工具设计应对应 Agent 的目标,而非底层 API 的粒度。 维度 API 导向 (差的设计) ACI 导向 (优的设计) 原子性 分离的 create_file, set_perm 目标导向的 create_script(path, content, exe) 描述深度 仅功能描述:读取日志 边界定义:Use when / Don't use when 示例驱动 无示例,依赖模型推断 Tool Use Examples:附带 1-5 个真实调用示例 高级能力 静态加载全部定义 Tool Search:根据需求动态发现工具定义 数据真相: 增加 1-5 个调用示例,能将工具调用的准确率从 72% 提升至 90%。此外,引入代码化工具编排(Programmatic Tool Calling),让中间数据在执行环境中流转而非反复穿过模型,能将长任务的 Token 消耗从 15万 降至 2千。 5. 真相四:文件系统才是 Agent 长任务的“真实大脑” Agent 不具备原生时间连续性。对于跨 Session 的长任务,依赖对话上下文保存状态是极其脆弱的。 外部化状态管理与四层记忆架构 我们提倡将 Agent 的状态彻底外部化,构建四层存储体系: 1. 工作记忆(Work Memory): 当前 Session 的消息流。 2. 程序性记忆(Procedural Memory): 即 Skills,定义“如何做”,按需加载。 3. 情景记忆(Episodic Memory): JSONL 格式的完整会话历史。 4. 语义记忆(Semantic Memory): 即 MEMORY.md。这是 Agent 主动写入的稳定事实,可读、可改、可检索。 长任务执行模式 在 OpenClaw 中,我们采用 Initializer Agent(负责生成 feature-list.json 等进度文件)与 Coding Agent(负责具体执行)的协作模式。Coding Agent 是**可重入(Re-entrant)**的,它不依赖上一轮对话,而是通过读取文件系统中的任务清单和 Git 记录来恢复现场。 “真正跨 session 传递状态的,不是上下文窗口,而是文件系统里的进度文件和 git 记录。” 6. 真相五:评测陷阱——你的基础设施可能在“拖后腿” 很多开发者在 Agent 表现下滑时会忙着改 Prompt,却忽略了评测系统本身的缺陷。 核心指标对齐 * Pass@k(能力评测): 衡量上限。只要 k 次尝试中有一次成功即可。用于探索模型能力的边界。 * Pass^k(回归测试): 衡量可靠性。要求 k 次运行必须全部通过。这是生产环境上线前的硬指标。 警惕基础设施错误(Infra Error) Source Context 中的实验数据显示了一个惊人的真相:在 1x 资源受限的环境下,基础设施错误率高达 6.5%,这往往会被误认为是模型能力的退化;而当环境切换到 Uncapped(无限制)时,这类错误会降至接近 0%。 架构师建议: 先修评测系统,再改 Agent 代码。评测应以产出物导向(Outcome-based),关注系统最终的状态变更(如数据库记录),而非 Agent 说了什么(Transcript)。 7. 结语:从“尝试”转向“确定性” 构建 Agent 不再是简单的 Prompt 堆砌,而是一场严谨的工程实践。当我们能够通过完美的 Harness 约束模型、通过 ACI 优化工具、通过文件系统外化状态并建立科学的评测体系时,Agent 才能从“概率性的玩具”变成“确定性的生产力”。 思考题: 当我们的工程基础设施(Harness)足够完美时,我们是否还需要追求最强大的模型,还是说一个“足够好”的模型配合完美的工程架构,才是 AI 时代的终局方案? 原文:https://x.com/HiTw93/status/2034627967926825175
世界级智能体工程(Agentic Engineering)指南别再折腾工具了:世界级 Agent 工程师的“极简”升天指南 你是一名开发者。你每天都在疯狂榨取 Claude 或 Codex 的能力,却在某个瞬间,看着它做出的愚蠢举动感到一阵恶寒。你无法理解,为什么外面那群人似乎已经建好了“虚拟火箭”,而你还在对着两块石头钻木取火。 你陷入了“分析瘫痪”。你尝试了市面上所有的包和插件(beads, opencode, zep),你的 CLAUDE.md 甚至膨胀到了 26,000 行。你以为只要找到完美的工具组合或记忆系统,就能解锁 AGI 的大门。 “我不是个游客——我从 Agent 几乎还不会写代码的时代就开始深入这个领域了。我构建过在生产环境中运行的信号、基础设施和数据管道。在尝试过所有范式后,我发现通往‘天堂’的路其实极其简单。” 真正的专业路径不是叠加工具,而是回归 Agentic Engineering 的基本原则。 1. 核心发现一:少即是多,基础模型公司正在替你“跑腿” 过度依赖外部工具包往往是平庸的开始。作为一名资深架构师,我必须告诉你:基础模型公司正在进行一场世代性的冲刺。 每一代新模型的进步都会改变协作逻辑。以前你需要费尽心机写“读这个文件”的指令,现在它们已经变得极其顺从。最关键的是:如果一个功能(如 skills, memory)真的有用,它最终会被整合进原生产品。 还记得以前为了解决 Agent 不愿做长任务而写的“stop-hooks”吗?当 Codex 5.2 发布后,这些复杂的补丁一夜之间就失去了存在的意义。别把自己锁死在旧时代的“解决方案”里。在 Agent 领域,保持轻量化才是保持竞争力的关键。 2. 核心发现二:上下文就是一切,警惕“上下文膨胀” 上下文(Context)是 Agent 的灵魂,但大多数开发者正在亲手毒害它。 当你往会话里塞进一千个插件和冗余笔记时,你就制造了“上下文膨胀”。想象一下,你只想让 Agent 写一首关于红杉林的小诗,但因为它读取了 71 个会话前的报错信息和 26 个会话前的内存笔记,它现在满脑子都是“制造炸弹的指令”和“烘焙蛋糕的食谱”,唯独忘了那棵树。 原则:只给 Agent 提供完成当前任务所需的确切信息量,多一点都是干扰。 3. 核心发现三:解耦研究与实现——让 Agent 保持“大脑清爽” Agent 在“连接点”或“填补空白”方面表现极差。模糊的指令(如“构建一个认证系统”)会迫使 Agent 去搜索大量无关信息,导致上下文充斥着最终不会被采纳的实现细节,极大地增加了幻觉风险。 专业人士的操盘方式是:物理隔离研究与实现。 1. 研究阶段: 创建一个专门的任务,让 Agent 产出具体的实现细节(如:使用 JWT、bcrypt-12 哈希、7 天过期轮换)。 2. 实现阶段: 开启一个拥有新鲜上下文的新 Agent,直接输入上述精确指令。 这种“墙”的设计,能确保负责实现的 Agent 不被研究过程中的废弃方案所污染。 4. 核心发现四:对抗“谄媚”——利用博弈获取真实反馈 Agent 天生具有“谄媚”倾向。如果你命令它“在代码中找 Bug”,即使代码完美,它也会为了取悦你而“扭曲事实”,制造一个 Bug。 “如果你要求某样东西,它会交付——即使它必须稍微扭曲事实!” 为了获得高保真度的结果,你需要采用**“中性提示词”**(例如:“搜索数据库,跟随逻辑并报告所有发现”)。如果任务至关重要,则引入我常用的“三方博弈”工作流: * 寻找者 (Finder): 识别所有 Bug。低影响 +1 分,关键影响 +10 分。它会产出一个 Bug 超集。 * 对抗者 (Adversary): 尝试证伪上述 Bug。成功证伪得分,若错误证伪则面临 -2 倍的分数惩罚。这迫使它在进取与谨慎间取得平衡。 * 裁判 (Referee): 最终判定。 通过这种游戏化激励,你能得到令人恐惧的高保真真相。 5. 核心发现五:定义“完成”——给 Agent 戴上确定性的枷锁 Agent 的智能瓶颈在于:它知道如何开始,却不知道如何结束。这导致它们经常用“存根代码 (Stubs)”这种偷懒的占位符来敷衍了事。 要解决这个问题,你必须建立一份 {TASK}_CONTRACT.md(任务合同): 1. 确定性的测试: “除非这 X 个测试全部通过,否则任务未完成。严禁修改测试脚本。” 2. 视觉验证: 要求 Agent 截图并自主验证设计或行为是否符合预期。 3. 合同约束: 将合同嵌入规则,未满足所有验证条件前,严禁终止会话。 6. 核心发现六:单任务会话——拒绝 24 小时超长连接 很多人迷恋 24 小时持续运行的 Agent,但在工程实践中,这会导致严重的上下文漂移。 更优的路径是:每个任务一个新会话。 利用编排层在任务启动时创建干净的会话,并利用 Stop-hook 机制将其与 {TASK}_CONTRACT.md 绑定。只有合同内容全部满足,Stop-hook 才会放行。这种“一事一议”的模式能彻底改变你的 Agent 体验,避免无关任务的上下文互相污染。 7. 核心发现七:迭代你的规则与 Skills,而非工具包 别再寻找新工具了,去经营你的 CLAUDE.md。你应该把它视为一个基于 IF-ELSE 逻辑的条件路由系统: * 规则 (Rules): 这是你的“偏好与原则”(例如:如果测试失败,读取 test-failing-rules.md)。 * 技能 (Skills): 这是你的“特定配方”(例如:处理特定数据库迁移的 Workflows)。 进阶策略: 不要直接给 Agent 现成的 Skills。让 Agent 先研究解决方案,将其写成 Skill 文档,由你这个“人类”审核后再锁定。 给规则“做 Spa”: 随着规则增加,它们会产生冲突。定期命令 Agent:“去做个 Spa,通过询问我的偏好来整合规则、消除矛盾并清理冗余。” 结语:拥有结果,并享受与“未来玩具”的互动 在 Agentic Engineering 的世界里,你可以委派设计,也可以委派实现,但你必须拥有 (Own) 最终的结果。 保持简单,虔诚地关注上下文质量,利用规则而非工具来塑造行为。当你剥离了所有复杂的包装,只剩下你和模型本身时,你是否真的学会了如何与这种新智能共舞? 这不仅仅是枯燥的工程,这是在与“未来的玩具”共同创造。祝你玩得开心! 原文:https://x.com/systematicls/status/2028814227004395561
全球生成式AI行业趋势,谁瓜分了ChatGPT的流量当前,关于人工智能的讨论热潮几乎席卷了所有行业。从科技巨头到初创公司,公众的目光普遍聚焦于新模型的发布、功能的迭代以及对未来的宏大叙事。然而,在这场喧嚣的追逐中,一个更基本、更真实的行业脉搏却常常被忽略。 真正的行业动态,往往隐藏在最不起眼的用户流量数据之中。用户的每一次点击、每一次访问,都汇聚成了衡量市场真实需求的标尺。本文将深入分析全球最新的AI工具流量数据,拨开炒作的迷雾,揭示五个正在发生、甚至有些反直觉的行业新趋势,帮助你洞察AI领域的真实格局与未来走向。 趋势一:通用AI巨头首次显露疲态,挑战者正迎头赶上 首先,一个不争的事实是,以聊天机器人为代表的通用AI工具仍然是整个市场的绝对主宰。根据最新的全球AI流量份额图表,“通用(General)”类别占据了超过90%的流量,显示出其强大的市场主导地位。 然而,数据揭示了一个关键的转折点:市场领导者OpenAI的增长已显露疲态。热力图数据显示,在2026年1月2日,OpenAI的流量增长率已显著下滑至-22%。与此同时,其主要竞争对手正凭借强大的分发渠道强势崛起。同一时期,谷歌的Gemini实现了49%的增长,而xAI的Grok更是达到了52%的惊人增幅。这种此消彼长并非偶然,它反映了商业策略的差异:Gemini受益于其在庞大的谷歌生态系统中的深度集成,而Grok则通过其在X(前身为Twitter)社交平台上的独家推送获得了大量用户。这一鲜明对比表明,通用AI市场正从一家独大,迅速演变为多强竞争的格局。 趋势二:专业领域的“小众”工具,正在经历爆炸式增长 尽管通用AI占据了流量大盘,但真正的惊喜增长发生在那些专注于特定领域的“小众”工具上。这些工具正以惊人的速度崛起,展现出巨大的市场潜力,尤其是在专业用户群体中。 以“DevOps与代码补全(DevOps & Code Completion)”领域为例,一个名为Base44的工具表现尤为突出。数据显示,该工具曾在2025年8月29日创下1161%的惊人增长率,并在近期(2026年1月2日)依然保持着49%的高速增长。在另一个细分赛道“角色与聊天AI(Character & Chat AI)”中,新玩家Inworld的增长势头极为迅猛。它并非又一个通用聊天机器人,而是一个为游戏开发者提供创建智能NPC(非玩家角色)的专业平台。这种高度垂直的定位为其带来了巨大成功,其在2026年1月2日的增长率高达420%。 这些专业工具的爆发式增长预示着AI应用的深化。当市场对通用工具的新鲜感逐渐褪去后,能够解决特定行业、特定场景问题的垂直解决方案,正在赢得越来越多专业用户的青睐。 趋势三:AI内容创作出现分化:文生图降温,音视频崛起 一个与普遍认知相悖的趋势正在显现:并非所有AI内容创作领域都在高歌猛进。数据显示,市场正在经历一场深刻的结构性分化。曾经最热门的写作和图像生成赛道,正普遍降温。 数据显示,“设计与图像生成(Design & Image Generation)”类别的总流量在2026年1月2日录得-10%的负增长。无独有偶,“写作与内容(Writing & Content)”类别在同一时期的总体增长率也恰好是-10%。这些并行的数据下滑,标志着市场正从初期、新奇驱动的广泛采用,过渡到一个更加注重价值和实效的成熟阶段。 然而,这并不意味着内容创作的热潮已经退去。恰恰相反,当文本和静态图像的增长放缓时,动态的、多媒体的AI生成工具正在强势崛起。数据显示,在同一时期,“视频生成(Video Generation)”实现了**+5%的增长,“语音生成(Voice Generation)”增长了+14%,而“音乐生成(Music Generation)”更是达到了+30%**的强劲增长。这一趋势清晰地表明,市场的创新焦点和用户兴趣正从传统的图文内容,向更具沉浸感的音视频领域转移。 趋势四:从“生成”到“鉴别”,市场需求出现微妙转变 我们在上一个趋势中观察到的AI写作市场的饱和与降温,直接催生了一个全新的、逆势增长的需求:内容鉴别。随着AI生成内容(AIGC)的泛滥,对内容真实性与原创性的验证需求正在迅速上升。 热力图数据显示,专注于检测内容“原创性(Originality)”的工具Originality,在经历了前期的负增长后,近期实现了强劲反弹,在2026年1月2日录得了17%的增长率。与之形成鲜明对比的是,该领域内大多数头部的AI写作工具,如Jasper(-16%)和Writesonic(-17%),都处于负增长状态。这种现象是同一枚硬币的两面:生成工具的普及降低了内容生产的门槛,从而推高了鉴别工具的价值。从盲目追求“生成”到开始重视“鉴别”,这标志着AI内容生态系统正朝着更成熟、更负责任的方向发展。 趋势五:并非所有领域都一帆风顺,部分赛道波动剧烈 数据同样提醒我们,AI行业并非遍地黄金。许多细分赛道在寻找可持续的商业模式和产品市场契合度的过程中,表现出极大的不确定性和波动性。 例如,在“写作与内容”类别中,Growthbarseo的增长轨迹揭示了市场竞争的残酷性,其增长率表现出极端波动,从早期60%的高增长,一路暴跌至-100%,几乎完全失去了市场流量。同样,在“角色与聊天AI”领域,Chai的增长率也从103%的顶峰骤降至-46%,展示了在缺乏坚实护城河的情况下,用户兴趣转移的速度之快。这种剧烈的波动与曾经稳如磐石的OpenAI形成了鲜明对比,凸显了在AI领域,创造初期热度与构建长期、可防御的产品之间的巨大鸿沟。 结语:数据背后,AI的未来走向何方? 流量数据不会说谎。综合来看,数据为我们描绘了一幅正在走向成熟的AI产业全景图:由单一通用模型引领的初期“淘金热”正逐步降温,取而代之的是一个更加复杂和动态的新阶段。这个阶段的特点是:顶层巨头间的竞争因生态和分发渠道而变得异常激烈;能够解决实际问题的垂直应用在专业领域爆炸式增长;同时,一个专注于质量、真实性和验证的新兴生态系统正在形成。 数据揭示了趋势,但并未给出终极答案。一个值得我们深思的问题是:在下一个发展阶段,哪一个今天看起来还很小众的AI应用领域,会成为颠覆行业的下一个巨头? 原文: www.similarweb.com 中文PPT:https://t.zsxq.com/eUk38
AI的长期记忆如何运作与进化简介:为什么AI的“记性”如此重要? 你是否曾感觉AI助手转头就忘了你们之前的对话?当大型语言模型(LLM)不再满足于简单的文本问答,开始进化为能够规划并执行复杂任务的“智能体”(Agent)时,我们才意识到,一个远超普通聊天记录的先进内存系统,正是其成功的基石。这套系统决定了AI能否从过去的经验中学习、保持行为的一致性,并最终实现真正的自主智能。本文将为你揭示源自最新研究的五个关于AI内存的最具冲击力、甚至有些反直觉的观点,带你一窥塑造未来AI的认知核心。 1. AI的“内存”远非一种:这是一个拥有三种核心形态的工具箱 首先,我们需要打破一个普遍的误解:AI智能体的内存并非单一概念,而是一个由三种截然不同“形态”(Forms)组成的工具箱,每种形态都有其独特的用途,共同构成了智能体的认知基础。 • 令牌级内存 (Token-level Memory): 这是一种外部的、可读写的离散信息单元,是目前最常见的内存形式,在诸如 MemGPT 等系统中得到广泛应用。你可以把它想象成AI随身携带的“记事本”,里面的信息透明、清晰,并且易于随时查阅和编辑。 • 参数化内存 (Parametric Memory): 这是一种将信息直接编码在模型参数(权重)中的内存。它更像是通过大量训练内化而成的“知识”或“本能”,调用时无需外部查找,而是自然而然地体现在AI的行为和语言风格中。 • 潜藏式内存 (Latent Memory): 这是一种存储在模型内部隐藏状态或激活值中的隐式内存。它既不像记事本那样完全暴露,也不像本能那样永久固定。这种形态兼具灵活性和效率,同时还能在处理敏感信息时提供天然的隐私保护。 简而言之,AI会根据任务的性质,灵活地选用最合适的内存类型。例如,在需要高度可追溯性的企业知识库或法律应用中,透明的“令牌级内存”是首选;而在需要保持风格一致性的角色扮演任务中,“参数化内存”则更能发挥作用;对于需要在边缘设备上运行或处理隐私数据的场景,“潜藏式内存”则展现出独特的优势。 2. 简单的文本记忆也有“维度”:从混乱列表到立体结构 我们通常以为AI的令牌级内存就是一个简单的信息列表,但现实其实是一个多维度的宇宙。搞错这个结构,就是区分一个高级搜索引擎和一个真正战略思想家的关键。即便是最常见的“令牌级内存”,其内部组织结构的进化也决定了AI能否进行深度思考。 1. 一维平面内存 (Flat Memory): 这是最基础的形式。如果说令牌级内存是AI的记事本,那么一维内存就像一个装满了未分类收据的鞋盒。所有记忆单元都被丢进这个“信息袋”里,彼此之间没有明确的关联。它的优点是简单、更新快,但随着信息增多,很快就会变得冗余和混乱。 2. 二维平面内存 (Planar Memory): 这是更进一步的结构,如同将鞋盒里的收据整理出来,用细绳在软木板上连接相关项目。它通过图、树或表格等形式,在单一层面上将不同的记忆单元连接起来,形成一个关系网络。这使得AI能够进行关系推理,例如在 Memog 和 G-memory 这样的系统中,它能理解概念之间的依赖关系,但扩展性依然有限。 3. 三维层级内存 (Hierarchical Memory): 这是目前最复杂的结构,好比一个拥有完整文件夹和子文件夹的档案柜。它跨越多个层次来组织信息,并建立起层与层之间的联系。例如,系统 HAT 和 GraphRAG 利用这种结构,底层是原始对话记录,中层是每日摘要,顶层是核心观点总结,从而支持从宏观到微观的“粗细粒度”信息检索。 这种从一维到三维的结构进化至关重要,它背后的权衡也十分清晰:一维平面内存以牺牲秩序换取速度和简洁,而二维和三维的结构化内存虽然提供了连贯性,却也带来了巨大的工程和计算开销。但即便拥有了最完美的结构化记忆,如果里面塞满了无关信息,它也会变得毫无用处。这恰恰说明了为什么AI的“遗忘”能力不是一个缺陷,而是维持其结构完整性的最关键特性。 3. 最聪明的AI,必须学会“遗忘” 这是一个反直觉但至关重要的观点:对于高级AI来说,遗忘和记忆同样重要。一个只进不出的记忆库会迅速变得臃肿、低效,并且充斥着大量过时或无关紧要的信息,最终拖垮整个系统。因此,“内存演化”(Memory Evolution)是AI智能体保持其知识库紧凑、一致和与时俱进的关键过程。 AI通过以下几种机制来实现这种“策略性遗忘”: • 基于时间的遗忘 (Time-based decay): AI会主动降低旧信息的重要性或直接将其标记为过期。例如,在具身智能体系统 KARMA 中,短期记忆会利用这种机制来遗忘物体过去的位置和状态,从而跟踪动态变化。 • 基于频率的遗忘 (Frequency-based forgetting): AI会优先保留那些经常被访问和使用的信息,而逐渐淘汰那些长期无人问津的“压箱底”知识,这类似于我们常说的“用进废退”。 • 基于重要性的遗忘 (Importance-driven forgetting): 这是最智能的策略。AI会利用其自身的判断能力,评估并保留那些对当前任务或长期目标最有价值的信息,即便它们既不新也不常用。例如,系统 Livia 甚至能将“情绪显著性”纳入考量,优先记住那些对用户有特殊情感意义的事件。 所以,AI的遗忘并非缺陷,而是一种精心设计的高级功能。它是AI实现持续学习、自我优化和适应动态环境的必要条件。 4. 提取记忆不是简单搜索,而是一个严谨的四步认知流程 拥有一个精巧的三维记忆结构只是成功了一半。AI如何在这复杂的内部世界中导航?答案在于一个远比数据库查询更复杂的检索过程,它更像人类的认知工作流。这个过程被称为“内存检索”(Memory Retrieval),可以分解为四个关键步骤: 1. 时机与意图 (Retrieval Timing and Intent): 首先,AI需要自主决定“何时”需要调用记忆,以及要查询“哪一种”记忆库。它不是被动地等待指令,而是会根据当前对话或任务的进展,主动判断是否需要外部知识支持。 2. 查询构建 (Query Construction): 接下来,AI需要将原始的用户问题或内部需求,重写或分解成能够有效在记忆库中检索的“信号”。例如,HyDE 系统会先生成一个“假设性文档”作为查询信号,而 PRIME 中的规划器智能体则会将复杂任务分解为一系列子查询。这一步至关重要,因为它弥合了用户模糊意图与记忆库精确存储之间的语义鸿沟。 3. 检索策略 (Retrieval Strategies): 在构建好查询信号后,AI会根据记忆库的结构采用不同的策略来执行搜索。这些策略包括传统的词法(如关键词匹配)、更高级的语义(基于向量相似度)、基于图(在关系网络中遍历)以及结合多种优势的混合策略。 4. 检索后处理 (Post-Retrieval Processing): AI在获得初步的检索结果后,并不会直接使用。它还会进行最后一步的“精炼”——对信息进行筛选、排序和整合,将零散的信息片段融合成一段连贯、简洁的上下文,然后再将其用于最终的思考和回答。 通过这精密的四步流程,AI的记忆系统正在从一个被动的“信息仓库”,转变为一个能够主动思考、辅助决策的“认知伙伴”。 5. AI记忆与人脑记忆:相似但根本不同 最后,我们来探讨一个更深层次的区别。不可否认,AI记忆在结构上大量借鉴了认知科学的框架,比如区分事实记忆和经验记忆。然而,两者在最核心的机制上存在着根本性的分歧。 • AI 记忆是“逐字检索” (Verbatim Retrieval): 当前绝大多数AI系统像一台高清录像机,它能够精确地回放存储在库中的、不可变的信息。你存进去的是什么,它取出来的就是什么,记录是真实且固定的。 • 人类记忆是“建构性”的 (Constructive Process): 与AI不同,人类的记忆是一个建构过程。当我们在回忆时,大脑并不会像播放录像一样提取信息。相反,它会根据我们当前的情绪、知识和认知状态,主动地“重建”过去的事件。这个过程充满了动态的抽象、扭曲和重塑。 正如研究指出的,绝大多数现有的智能体记忆系统都依赖于逐字检索机制。这意味着,尽管AI拥有对过去的真实记录,但它们缺乏生物智能所特有的那种根据当前状态动态重塑历史的能力。 这一差异极为重要。它或许解释了为什么当前的AI虽然在特定任务上表现超凡,但在实现真正意义上的泛化能力、创造力和常识推理方面,仍然面临着巨大的挑战。AI记录了过去,而人类则在不断地重塑过去。 结论:记忆,点燃通用智能的火花 从今天揭示的五个观点中,我们可以清晰地看到:AI的内存正迅速从一个简单的存储模块,演变为一个复杂的、动态的、多形态的认知核心。它不仅关乎AI“记性”的好坏,更直接决定了AI能否进行深度思考、持续学习和自主进化。这套系统,正是从专用工具迈向通用智能的关键所在。 未来已来,一个问题油然而生:当AI的记忆系统不仅能记住一切,还能像人一样进行创造性的遗忘和联想时,我们与智能机器的协作边界又将被推向何方? 原文:https://arxiv.org/abs/2512.13564 PPT下载:https://t.zsxq.com/AgQad
100 万亿 Token 的 AI 洞察: 大模型正在从生产力转向Agentic 推理,角色扮演超越预期揭秘AI真实用途:来自百万亿级(100 Trillion)数据的惊人发现 引言:超越炒作,探寻AI使用的真实面貌 人们普遍认为,人工智能(AI)主要是一种提升工作效率的工具。然而,来自一项前所未有的大规模研究的真实数据显示,AI的实际用途远比我们想象的更丰富、更出人意料。通过分析来自OpenRouter平台超过百万亿(100 Trillion)tokens的真实世界交互数据,我们得以揭开AI使用的神秘面纱。 本文旨在将这些复杂数据中发现的最有趣、最颠覆认知的趋势,以通俗易懂的方式分享给每一位对AI充满好奇的学习者,帮助你洞察AI发展的真实脉络。 1. 惊人发现一:AI不仅是生产力工具,更是巨大的“创意角色扮演”游乐场 本次研究中最出人意料的发现之一,是创意和娱乐型AI应用的惊人热度,尤其是“角色扮演”(Roleplaying)。数据显示,用户并非只将AI用于工作和学习,而是投入了大量时间进行创造性的互动。 超过一半的开源模型(OSS)使用量都集中在“角色扮演”类别。 为什么开源模型在这一领域如此受欢迎?原因在于它们不仅受到的内容限制通常较少,更重要的是,角色扮演类任务对模型的“灵活性、上下文记忆能力和情感细微度”有极高要求。经过微调的开源模型恰好能在这些方面表现出色,且无需受制于商业化的安全层,从而为用户在构建角色、编织故事时提供了无与伦比的创作自由度。 这场创意应用的爆发,与另一个重要趋势紧密相连:来自全球的强大、易于获取的开源模型的崛起。 2. 惊人发现二:开源模型的崛起——一场真正的全球化变革 尽管大型科技公司的专有闭源模型在市场上占据主导地位,但开源模型(OSS)在过去一年中稳步增长,已占据了相当可观的市场份额。这标志着AI生态正变得更加多元和健康。 以下是关键的数据洞察: * 市场份额 (Market Share): 开源模型已占据约 三分之一 的使用量,并且这一比例仍在持续增长。 * 中国力量 (China's Influence): 来自中国的开源模型贡献了巨大增长,其中以 DeepSeek 和 Qwen 为代表,其使用量占比从几乎为零飙升至在某些时期占据近 30% 的总使用量。 * 动态竞争 (Dynamic Competition): 市场不再由单一开源模型主导。如今,它呈现出一个由多个强大模型(如DeepSeek、Qwen、Llama等)共同竞争的多元化生态。这种竞争的关键在于“迭代优势”,例如DeepSeek通过不断推出性能更强的版本,成功地在挑战者面前保持了长期的竞争力。 这一趋势的真正意义在于,它表明一个健康、多模型的生态系统正在形成。开发者拥有更多选择,这不仅促进了技术创新,也有效防止了任何一家公司垄断AI领域。 然而,在这样一个选择众多的竞争市场中,是什么让用户对某个特定模型保持忠诚呢?答案隐藏在一个我们称之为“玻璃鞋”的效应之中。 3. 惊人发现三:“灰姑娘的玻璃鞋”效应——揭示用户忠诚度的秘密 为了理解用户的长期留存,研究提出了一个新颖的框架——“灰姑娘的玻璃鞋”(Cinderella 'Glass Slipper')效应。这个比喻生动地解释了用户忠诚度的形成机制。 该效应描述了当一个新模型发布时,它恰好完美地解决了一小群早期用户一个之前未被满足、且价值极高的问题。这种“完美匹配”就像灰姑娘穿上了独一无二的玻璃鞋,从而创造出一种异常强大且持久的用户忠诚度。最好的例证是 Google Gemini 2.5 Pro 的2025年6月用户群 以及 Claude 4 Sonnet 的2025年5月用户群,它们在长达5个月后依然保持着约40%的极高留存率。 与此形成鲜明对比的是 Gemini 2.0 Flash 和 Llama 4 Maverick 等模型,它们发布时市场已有“足够好”的替代品,未能找到这种“完美匹配”,因此所有用户群的留存率都普遍很低。更有趣的是,DeepSeek模型还展现出一种“回旋镖效应”,即部分用户在尝试其他模型后,最终确认DeepSeek对其特定工作负载的匹配度最佳而选择回归。 这一现象背后有三个对模型构建者和投资者至关重要的战略启示: 1. 先发即优势 (First-to-Solve Advantage): 第一个成功解决某个关键工作负载的模型,能够深度锁定其早期用户。因为这些用户会围绕该模型构建自己的工作流程,一旦形成依赖,转换到其他模型的成本将变得非常高。 2. 忠诚度是技术突破的信号 (Retention as a Sign of Breakthrough): 一个真正具有颠覆性的新模型,其标志并非短暂的流量高峰,而是能否形成一个或多个留存率极高的“基础用户群”(foundational cohorts)。这些忠实用户是模型核心价值的最好证明。 3. 稍纵即逝的机会窗口 (A Fleeting Window of Opportunity): 捕获这些“基础用户群”的机会窗口极其短暂,通常只在模型发布初期、被外界普遍视为技术前沿时出现。一旦错过这个窗口,后续吸引到的用户忠诚度会显著降低。 这种深度的用户忠诚度,往往在模型超越简单的聊天功能,开始执行更复杂、多步骤的任务时形成——这正是我们观察到的下一个大趋势:AI的“智能代理化”。 4. 惊人发现四:AI的进化——从“聊天机器人”到“智能代理” AI的使用方式正在发生根本性转变。我们正从简单的“一问一答”式交互,转向更复杂的、多步骤的工作流,即“智能代理推理”(agentic inference)。在这种模式下,AI能够自主规划、调用工具并进行逻辑推理,以完成一个设定的目标。 以下证据清晰地展示了这一趋势: * “推理模型”使用量激增 (Rise of Reasoning Models): 超过一半的AI使用量现在流向了具备更强推理能力的模型,其中以 xAI的Grok Code Fast 1 和 Google的Gemini 2.5 Pro/Flash 为代表。这表明用户越来越依赖AI来处理需要逻辑和规划的复杂任务。 * 更长的对话上下文 (Longer Conversations): 用户输入的平均文本长度(Prompt Tokens)增长了近四倍。这说明用户正在让AI处理更复杂的背景信息和文档,尤其是在编程任务中,AI需要理解整个代码库才能提供帮助。 * 更频繁的“工具调用” (Increased Tool-Calling): AI被越来越多地用于调用外部工具(如API),这意味着它正从一个单纯的文本生成器,进化为一个能够实际执行任务的“数字助理”。 这一趋势的核心洞察是:AI正在成为一个用于行动和解决问题的计算引擎,而不仅仅是一个用于生成内容的信息工具。用不了多久,甚至可以说现在已经开始了,智能代理推理将主导绝大部分的AI计算。 随着AI能力的进化,其在全球范围内的使用模式以及不同成本区间的应用也呈现出明显的多样性。 5. 惊人发现五:AI市场的全球化与细分——成本与价值的博弈 AI市场正在经历深刻的全球化和细分化。数据显示,AI的使用不再局限于特定地区或价格区间,而是呈现出复杂的动态平衡。 首先,在地理分布上,AI的支出正在全球范围内重新分配: 其次,在成本与使用的关系上,研究发现了一个令人惊讶的现象:需求对价格并不十分敏感。这意味着用户往往愿意为更高质量、更可靠的模型支付溢价,而不是简单地选择最便宜的选项。 基于此,市场可以被划分为四个独特的细分领域: * 高端领导者 (Premium Leaders): 如Anthropic的Claude系列。尽管价格昂贵,但凭借其卓越的质量和可靠性,吸引了海量用户,尤其是在编程等高价值任务上。 * 高效巨头 (Efficient Giants): 如Google的Gemini Flash和DeepSeek模型。它们以极具竞争力的价格提供强大的性能,成功吸引了大量对成本敏感的用户。这一领域还体现了“杰文斯悖论”:成本的降低不仅满足了现有需求,更创造了新的需求,用户因此更愿意运行更长的上下文和更多的迭代,从而增加了总消耗量。 * 小众专家 (Premium Specialists): 如 OpenAI的GPT-4 及最新发布的 GPT-5 Pro。这些模型定价最高,通常被用于对质量要求极高、风险极大的特定任务,使用量不大但价值极高。 * 长尾工具 (Long Tail): 包含了众多价格低廉但使用量有限的模型。它们尚未找到清晰的“模型-市场匹配”,在激烈的竞争中处于边缘位置。 这些相互关联的趋势——从创意角色扮演到“玻璃鞋”效应,再到全球市场的演变——共同描绘了一幅丰富而复杂的AI生态图景,预示着一个激动人心的未来。 6. 结论:这对AI的未来意味着什么? 综合以上发现,我们可以清晰地看到AI发展的未来方向。这不再是一个关于“哪个模型最好”的简单问题,而是一个关于生态、应用和价值的复杂图景。 以下是本次研究最核心的几点启示: * AI生态是多元的 (The AI Ecosystem is Multi-Modal): 未来不属于任何单一模型。它将是一个由高性能的闭源模型和灵活的开源模型共同组成的、充满活力的生态系统,用户可以根据不同任务选择最合适的工具。 * 超越生产力 (Beyond Productivity): 娱乐、创意和社交互动是AI的核心应用场景,而不仅仅是工作的附属品。这背后蕴藏着巨大的消费级市场机会,潜力甚至不亚于生产力工具。 * “智能代理”是下一个前沿 (Agentic Inference is the Next Frontier): AI的核心价值正在从“生成内容”转向“采取行动”和“完成任务”。能够规划、推理并与数字世界互动的智能代理将是下一代AI应用的主流形态。 * 忠诚度源于“完美匹配” (Loyalty Comes from a "Perfect Fit"): 在技术快速迭代的AI领域,真正的护城河不再是模型本身,而是率先为特定用户群体解决关键问题,形成一种竞争对手难以打破的“玻璃鞋”式绑定。识别并服务好这些“基础用户群”,是获得持久成功的新关键。 原文:State of AI | OpenRouter
破解上下文腐烂:AI Agent 的工程化实践引言:为什么AI智能体总是“聊着聊着就忘了”? 你是否曾好奇,为什么功能强大的AI智能体在处理复杂或长期的任务时,常常会变得混乱、效率低下,甚至“忘记”了最初的目标?明明拥有海量的知识和强大的推理能力,它们却似乎总在信息的海洋中迷失方向。 这背后隐藏着一个AI智能体面临的核心挑战——如何有效处理和管理源源不断的信息流。简单地把所有信息都塞给模型,并不能让它变得更聪明。问题的关键,在于一门新兴的、至关重要的技术学科:上下文工程 (Context Engineering)。 这并非又一个关于如何写提示词的陈词滥调,而是一套系统性的方法论,旨在优化信息流,让AI智能体在正确的时间获得正确的信息。本文将分享从LangChain和顶尖AI公司Manus的实践中提炼出的4个最具颠覆性的反常识见解,揭示构建高效、可靠AI智能体的真正秘诀。 1. 反常识一:上下文越长,AI可能越“笨”——“上下文腐烂”悖论 我们通常认为,提供给AI的信息越多、上下文越完整,它的表现就应该越好。然而,现实恰恰相反。随着AI智能体交互轮次的增加,不断增长的上下文长度反而会损害其效率和准确性,这种现象被称为 “上下文腐烂 (Context Rot)”。 这就构成了一个核心 悖论:智能体既需要大量上下文来完成复杂任务,但过长的上下文又会降低其性能。 Manus公司的研究发现,模型对上下文的利用率并非线性。我们可以将其想象成三个区域: • 绿色区域 (0-128K token): 在这个范围内,模型能够有效处理和利用上下文信息。 • 橙色区域 (128K-200K token): 这是“腐烂阈值 (Pre-rot threshold)”区,模型的性能开始明显衰减。 • 白色区域 (200K token以上): 在这个区域,大部分上下文信息几乎被模型“忽略”,无法被有效利用。 这一发现揭示了一个残酷的现实:简单地扩大上下文窗口并非万能解药。真正的挑战在于如何“智能地”管理上下文,确保最关键的信息始终处于模型的“有效感知区域”内。 2. 反常识二:别只聊提示词,真正的挑战是“为AI减熵” 长期以来,我们专注于提示词工程 (Prompt Engineering),试图通过精巧的语言教会机器如何理解任务。但这只是治标不治本。人机之间真正的“智能鸿沟 (Intelligence Gap)”,其本质是 “信息熵的不对称”。 人类天生具备强大的“熵减能力”——我们能通过共享的文化背景、情感线索和情境感知,自动补全对话中的缺失信息,将模糊的意图(高熵)转化为清晰的理解(低熵)。而机器目前严重欠缺这种能力。 因此,上下文工程 的核心工作,可以被定义为 “主动为机器进行熵减预处理”。它与提示词工程有着本质区别: • Prompt Engineering 是一种静态的、手动的“单次任务”,为每一个孤立的请求精心设计指令。 • Context Engineering 是一种动态的、系统化的升级。它不再是手动编写提示词,而是搭建一个智能系统,这个系统能根据情境、历史记忆和知识库,“动态组装” 出最适合当前任务的最优上下文。 这个演进过程的本质,是AI逐步接管人类原本需要承担的“上下文熵减工作”。从最初需要人类将信息“翻译”成机器语言的 Context 1.0,到我们现在所处的、AI能理解自然语言指令的 Context 2.0,再到未来AI能理解完整场景的 Context 3.0,最终迈向推测中的 Context 4.0。 这正是 Context Engineering 作为系统工程的价值所在:不是让人类学会如何更好地与机器对话,而是让机器学会如何更好地理解人类——最终,在Era 4.0,机器甚至能比人类更好地理解人类自己。 3. 反常识三:给AI一个“分层工具箱”,避免“选择困难症” 当AI智能体集成的工具越来越多时,一个新问题出现了:“上下文混淆 (Context Confusion)”。面对几十上百个工具,模型会感到困惑,常常调用错误的工具,甚至“幻想”出不存在的工具。 Manus公司为此设计了一个极其巧妙的解决方案——“分层行动空间 (Layered Action Space)”。其核心思想不是简单地提供工具,而是将工具能力“卸载”到不同层次,让核心接口保持绝对简洁。这好比给AI的不是一堆杂乱的工具,而是一个井井有条的工房: 1. 第1层:原子函数调用 (Atomic Function Calls) 这就像你随身携带的瑞士军刀。它是一个小而固定的核心函数集(约10-20个),如读写文件、执行shell命令。为什么小而固定至关重要? 因为这确保了系统的绝对稳定,模型不会混淆,并且由于调用频繁,性能上对缓存极其友好。 2. 第2层:沙盒实用工具 (Sandbox Utilities) 这相当于一个巨大的共享车间,你拥有它的钥匙。这一层包含了海量的预装命令行工具(如grep)。其天才之处在于认知负荷的卸载:系统无需在提示词中塞入每个工具的详细说明,只需告诉LLM“这个车间里有很多工具,你可以用-help命令随时查看说明书”。这使得智能体的能力近乎无限扩展,同时又完全不污染核心上下文。 3. 第3层:软件包和API (Packages and APIs) 这好比允许你就地建造一台定制机器来解决特定难题。对于数据分析等复杂任务,智能体可以编写并执行Python脚本。其最大的好处在于上下文的极致保留:所有密集的计算(例如分析一个巨大的数据集)都在外部的Python环境中完成,只有那个最终的、可能只有几个词的结论被返回给模型。这是一场保存宝贵上下文空间的经典战役。 这种分层设计,在保持核心接口简洁稳定的同时,赋予了智能体几乎无限扩展的能力,优雅地平衡了系统的安全性、稳定性和灵活性。 4. 反常识四:少做加法,多做理解——顶级AI架构的极简主义 尽管上下文工程的技术栈日益复杂,但Manus公司在实践中发现,最大的性能进步往往来自于 “简化”——移除不必要的复杂性,并给予底层的LLM更多的信任。 这不仅是一种哲学,更是一种深刻的商业与工程策略。上下文工程的真正艺术,是在性能、成本、延迟等多个相互冲突的目标之间找到微妙的平衡。Manus刻意避免对模型进行过早的专门化或微调,因为在AI技术日新月异的今天,任何针对特定模型的深度优化,都可能在下一代模型发布时变得过时。坚定地依赖通用模型,并通过卓越的上下文工程来驾驭它,才是保持产品灵活性和未来适应性的关键。 正如Manus的科学家所总结的: 少做加法,多做理解 (build less and understand more) 在快速演进的AI领域,追求一个简单、稳定、更懂模型的架构,远比盲目堆砌复杂功能更为重要。这是一种顶级AI架构所奉行的极简主义。 结论:从“管理信息”到“引导智能” 回顾这四个反常识,我们发现构建高效AI智能体的关键,并非无限堆砌信息或功能,而是通过精妙的“上下文工程”为AI进行系统性的“熵减”。 这标志着一场根本性的转变:我们正在从“管理信息”的时代,迈向“引导智能”的时代。整个上下文工程的演进史(从Context 1.0到4.0),正是一部AI系统性地从人类手中接管“熵减”工作的历史。当Context 4.0——“上下文即世界”的时代到来,AI可能比我们自己更深刻地理解我们的意图,成为激发新认知、创造新灵感的伙伴。 这也给我们留下了一个值得深思的问题:当AI的“熵减”能力最终超越人类,我们与智能体的协作关系又将演变成什么样貌? 原文:AI Agent 中的上下文工程 (Context Engineering) | Breezedeus.com
AI Agent 性能优化:核心策略与实战技巧AI 智能体(Agent)无疑是当下最激动人心的话题之一,它们似乎拥有无限的潜力,能够自主完成复杂任务。然而,当开发者们真正投身其中时,会发现构建一个真正高效、可靠的智能体并非魔法,而是一项严谨而复杂的工程挑战。 这背后隐藏着许多与直觉相悖的优化策略。本文将基于专家分析,为你揭示顶尖开发者在优化AI智能体性能时所采用的一些最令人惊讶、也最有效的反直觉技巧,帮助你掌握为何“拥抱失败”与“制造噪音”恰恰是通往更高智能的关键。 不只是提示词:欢迎来到“上下文工程”时代 我们都熟悉“提示词工程”(Prompt Engineering),但对于复杂的智能体来说,这仅仅是冰山一角。一个更高级、也更关键的领域正在浮现,那就是“上下文工程”(Context Engineering)。 与编写一次性的提示词不同,上下文工程是一个动态的、持续的过程。它关注的是在智能体整个推理和行动周期中,如何迭代式地为大语言模型(LLM)策划和维护一个最优的 token 集合。这标志着一个重要的思维转变:我们不再是简单地“告诉”模型做什么,而是在任务的每一步都精细化地管理它的“记忆”和“注意力”。 与撰写prompt这一离散任务不同,上下文工程是迭代性的,每当决定向模型传递什么内容时,都会进行筛选阶段。 “长上下文”不是银弹:驯服记忆的三个技巧 一个常见的误区是:只要拥有无限大的上下文窗口,所有问题都能迎刃而-解。然而,现实恰恰相反。当上下文变得过长时,会出现一种名为**上下文腐烂(Context Rot)**的现象,即模型回忆和利用信息的能力会随之下降。 因此,盲目追求“大”不如学会“巧”。以下是三种用于管理长周期任务、驯服智能体记忆的强大技巧: 1. 上下文压缩 (Context Compaction): 这就像让智能体自己写工作总结。当对话历史接近上下文窗口极限时,智能体会对关键信息(如架构决策、未解决的错误)进行提炼总结,然后带着这个压缩后的摘要开启一个全新的、干净的上下文。这个过程的难点在于精确选择保留与丢弃的内容,建议先从最大化信息召回率开始,再通过迭代消除冗余内容来提高其精确度。 2. 结构化笔记 (Structured Note-taking): 这是一个简单却出奇有效的策略。让智能体在外部维护一个独立的笔记文件(例如 NOTES.md 或一个待办事项列表)。通过这种方式,智能体可以持续追踪复杂任务的进展、关键依赖关系,而不会在数十次工具调用后迷失方向。 3. 子智能体架构 (Sub-agent Architectures): 这是一种“分而治之”的架构模式。由一个主智能体负责协调高层计划,并将复杂的子任务分派给专门的子智能体。这些子智能体在各自干净的上下文中完成深入的技术工作或信息检索,然后只向主智能体汇报一个精炼的摘要。这种模式实现了清晰的关注点分离,尤其在处理复杂研究任务时,性能远超单个智能体。 别隐藏错误:让智能体从失败中学习 这听起来可能有些反常,但提升智能体性能最有效的方法之一,就是让它清楚地看到自己犯下的错误。 许多开发者会下意识地捕获并隐藏错误,只给智能体看成功路径。但更优的做法是,将失败的动作、返回的错误信息甚至堆栈跟踪(stack traces)完整地保留在上下文中。当模型看到某个动作失败后,它会不自觉地更新其内部认知,从而在后续决策中降低重复犯错的可能性。这种从失败中自我修正的能力,是衡量一个智能体是否真正智能和鲁棒的关键标志。 错误恢复能力是衡量智能体是否具备真正智能行为的重要指标之一。 少即是多:打造精简而强大的工具库 初学者常犯的一个错误是,为智能体提供一大堆功能重叠或过于底层的工具,认为“越多越好”。然而,这反而会干扰智能体的决策,使其陷入混乱。 正确的原则是设计更少、但更强大的高阶工具。例如,与其提供独立的 list_users、list_events 和 create_event 工具,不如构建一个单一的 schedule_event 工具,由它在内部完成查找可用时间、创建活动等一系列操作。同理,与其提供一个宽泛的 read_logs 工具,不如设计一个更聚焦的 search_logs 工具,让它只返回相关的日志行和必要的上下文。 此外,一些微小的细节会产生惊人的影响。在工具的参数和返回字段中,使用清晰的自然语言名称(如 name、file_type)而非技术标识符(如 uuid、mime_type),可以显著减少模型的幻觉现象,让它更准确地理解和行动。 “身教”胜于“言传”:一个好例子胜过千条规则 面对智能体的各种行为偏差,开发者们的本能反应是不断往系统提示中塞入更多的规则,试图覆盖所有可能的边缘情况。 然而,研究表明,这种做法效果不佳。一种更高效的策略是,提供一组多样化且结构良好的正面和负面示例(例如使用 和 标签)。通过展示具体的“该做什么”和“不该做什么”,模型能够更直观、更深刻地理解预期行为,其效果远胜于冗长繁琐的规则列表。 对于 LLM 来说,示例就是胜“千言万语”的“图片”(the “pictures” worth a thousand words)。 重复的陷阱:为什么你的智能体需要一点“噪音” 少样本提示(Few-shot prompting)是引导 LLM 的常用技巧,但在智能体系统中,它暗藏一个微妙的风险。智能体是极佳的模仿者,如果它的上下文中充满了大量相似的“动作-观察”配对,它就很容易陷入一种机械的重复模式。例如,在批量审阅20份简历时,智能体可能会形成一种惯性,仅仅因为在上下文中看到了类似行为,就不断重复相同的操作,从而偏离最初的目标,甚至产生幻觉。 解决这个问题的方案同样出人意料:在上下文中刻意引入一些结构化的“噪音”。通过在示例中引入一些微小的变化,例如使用不同的措辞、稍微改变输出格式或序列化模板,可以有效打破模型的模仿惯性。这种适度的随机性会迫使模型更好地泛化,而不是简单地复制粘贴,从而提升其在真实任务中的鲁棒性。 结论:智能体系统的未来工艺 构建卓越的 AI 智能体是一门精妙的工艺,它远远超出了简单编写提示词的范畴。从上下文的精细化管理、工具库的极简设计,到拥抱失败和善用示例,每一项策略都体现了深度的人机交互洞察和系统工程思维。 未来的前沿阵地,不再是寻找那个“完美的提示词”,而是构建富有弹性的系统架构——在这样的架构中,智能体能够从错误中学习,自主管理记忆,并精准地运用工具。因此,终极问题或许不是智能体能为我们做什么,而是我们如何才能构建一个能让它们真正茁壮成长的环境。 原文:AI Agent 性能优化:核心策略与实战技巧 | Breezedeus.com
OAgents:构建高效AI智能体的实战经验与挑战1. 概述与核心论点 这份研究论文《OAgents: An Empirical Study of Building Effective Agents》由OPPO AI Agent Team撰写,旨在解决当前代理AI研究中普遍存在的标准化和科学严谨性不足的问题。研究指出,由于缺乏标准化的设计、实现细节和评估协议,使得不同代理框架之间的公平比较变得困难,且结果往往难以复现。 核心论点: * 当前代理研究缺乏标准化和科学严谨性: “我们认为当前的代理研究实践缺乏标准化和科学严谨性,使得很难在方法之间进行公平比较。因此,目前仍不清楚代理框架中不同的设计选择如何影响有效性,并且衡量其进展仍然具有挑战性。” * 非一致性导致结果不可复现: 现有工作(即使是开源的)由于缺乏标准评估协议,导致结果不可复现,且随机运行之间存在显著差异。 * 识别关键组件和设计: 该研究通过系统的实证研究,揭示了哪些组件和设计对于构建有效代理至关重要,而哪些看似合理但实际上是冗余的。 * 推出OAgents框架: 基于研究发现,作者构建并开源了OAgents,一个模块化的基础代理框架,在开源项目中实现了最先进的性能。 2. 研究动机与问题 尽管语言代理(Agentic AI)作为一个热门研究领域,吸引了大量关注,但该领域面临着严峻的挑战,尤其是在科学研究的严谨性方面: * 设计和实现细节的不一致性: 关键组件(如规划、记忆和工具使用)在不同论文和框架中差异巨大,“使得很难将性能改进归因于具体的创新。” * 结果难以复现: 由于评估设置不一致或框架配置未公开,报告的结果通常难以复现,“这种碎片化损害了该领域的科学严谨性,因为研究结果无法可靠地比较或在此基础上构建。” * GAIA基准测试的再现性问题: 以GAIA基准测试为例,“尽管组织者提供了带有评估代码的公共排行榜,并且许多论文和项目都是开源的,但其他研究人员仍然很难(如果不是不可能的话)重现其结果,因为许多不明显的因素没有标准化,包括工具和提示的实现细节,以及评估协议的细节。”这些因素对整体性能有很大影响,有时甚至超过新的架构创新。 * 工程细节而非科学突破的竞争: “不同代理研究论文和代码库中的工程设计和细节如此之多,以至于不可能对特定技术设计进行公平比较。这使得代理AI研究社区很难正确地进行科学研究,而不是深入研究工程细节和评估协议中的技巧。” * 最佳实践不明确: 尽管大量代理研究论文发布且公共基准上的数字不断增加,但构建有效代理的最佳实践仍然非常模糊。 3. OAgents框架与贡献 OAgents框架旨在通过提供一个模块化、可复现的平台来促进代理AI领域的科学研究。 OAgents框架的关键组件: OAgents框架包括规划、记忆、工具和测试时扩展四个核心组件,如下图所示: * 规划 (Planning):动态计划修订 (Dynamic Plan Revise): 基于最新观察,每N步修订计划,以适应动态环境并加强长期决策。 * 子任务分解 (Subtask Decompose): 将复杂任务分解为相互依赖的子任务,并构建依赖图,支持动态调度和错误检测。 * 计划提示 (Plan Tips Design): 从历史执行轨迹中提取经验知识和启发式指南,作为规划器的软约束,以避免已知陷阱并增强鲁棒性。 * 记忆 (Memory):当前记忆 (Current Memory): 短期缓冲区,存储任务特定的实时信息,用于即时决策。 * 记忆摘要 (Memory Summarization): 将原始经验序列转换为结构化语义单元,提取高显著性知识。 * 向量化记忆检索 (Memory Retrieval): 通过向量相似性检索有益的历史记忆。 * 长期记忆 (Long-Term Memory): 整合历史见解,持续优化任务执行,解决长推理链和上下文冗余问题。 * 工具 (Tools):多模态工具包 (Multimodal Toolkit): 集成文本、语音、图像和视频处理能力,实现跨模态语义解析,增强事实获取能力。 * 搜索代理 (Search Agent): 优化多源检索(Google、Bing、Wayback Machine等)、查询优化(Reflect和Expand机制)和极简浏览架构(Search、Visit、Read三个原子函数)。 * 测试时扩展 (Test-Time Scaling - TTS):多样性增强 (Diversity Enhancement): 混合代理采样策略,结合多个LLM策略,生成更广泛的解决方案空间。 * 优化 (Optimization): 基于过程的奖励函数,评估任务进展、错误处理和效率,提供持续反馈以优化推理轨迹。 * 奖励建模 / 反思 (Reflection): 实时反思机制,从过去的步骤中捕获纠正性见解,改进错误检测和即时调整。 主要贡献: 1. 综合代理框架OAgents: OAgents框架包含“定期修订的计划生成、细粒度任务分解与同步执行、多源网络浏览优化、增强文档解析以及自适应记忆机制”,在GAIA基准测试的开源代理框架中排名第一。 2. 系统性实证研究: 基于OAgents框架进行了系统的实证研究和性能分析,提供了分解、分析和优化代理设计的原则,揭示了最佳架构选择和影响实验稳定性的关键因素。 3. 实用技术减少实验方差: 引入了减少实验方差的实用技术,“包括推理参数优化和多数投票策略,从而实现更可靠和一致的代理性能评估。” 4. 实验设置与结果分析 数据集和评估协议: * GAIA基准测试 [14]: 真实世界挑战,需要推理、多模态处理、网络搜索和工具使用等基本技能。评估指标为 Pass@N,主要报告 Pass@1 分数。允许模型在答案为空或包含“无法确定”时重新回答,但召回错误答案是非法的。 * BrowseComp [28]: 更具挑战性的基准测试,用于验证搜索代理的能力。 关键发现: * OAgents的领先性能: 在GAIA基准测试中,OAgents-Pass@3实现了73.93%的最高平均分,优于所有其他开源和闭源框架。在Level 1任务中达到83.02%,与表现最好的框架持平。 * 现有框架的再现性差: 研究发现,对Open Deep Research [10]的复制(标记为“Smolagents”)性能显著下降,“这表明当前代理框架的再现性很差。” 4.1 事实获取能力 (FAC) 评估: FAC衡量代理获取、验证和整合外部知识的能力,主要受工具组件影响。 * 多模态工具包的重要性:整合文本、语音、图像和视频处理能力,实现同步和跨模态语义解析。 * OAgents + Toolkit 在GAIA多模态任务中取得了74.07%的准确率,远超基线的48.15%。在音频问答子任务中,时间推理准确率从0%提高到100%。 * “这些结果表明,深度优化的多模态架构可以有效弥合智能代理系统中的模态差距。” * 搜索代理框架的影响:Jina reader的优势: 在Level 2任务中,Jina reader比原始HTML解析性能高9.3%,强调了预处理在提高检索质量中的作用。 * 多源搜索的益处: 整合补充搜索引擎(DuckDuckGo、Baidu、Bing)显著提高了检索准确性,尤其是在Level 3任务中提高了7.69%。 * 查询优化的效果: 结合反思和扩展机制的查询优化策略显著提升了系统性能,Level 1提升7.55%,Level 2提升2.31%。 * 极简浏览架构的鲁棒性: 极简系统架构表现出竞争力,“支持了接口复杂性降低可以提高鲁棒性而不牺牲功能的假设。” * FAC改进对不同模型的影响:OAgents通过集成的多模态工具包和优化的搜索基础设施,在各种基础模型上都取得了显著的性能提升。 * GPT-4o:整体分数提高8.09%,Level 3任务提高7.69%。 * Gemini-2.5:平均提高9.09%,Level 3任务提高19.24%。 * Claude-3-7:增益最高,达到20.61%,“证明了该框架对不同基线性能模型的适应性。” * “这些结果证实FAC改进显著提升了智能代理在各种架构下的性能。” 4.2 逻辑推理保真度 (LRF) 评估: LRF通过规划、记忆和测试时扩展来确保稳定和连贯的决策。 * 动态计划生成:战略计划修订: 相较于静态工作流,动态计划修订将整体准确率提高了3.64%,证实了其在适应性和长期推理方面的优势。 * 子任务分解: 实现了2.42%的改进,表明结构化子任务分解增强了系统推理能力。 * 计划提示: 基于历史错误日志分析和启发式知识,带来了14.54%的性能提升,“证明了利用先前经验有助于防止错误并构建更鲁棒的计划。这对于高复杂性任务尤其重要。” * 记忆模块:记忆组件显著增强了代理的认知能力。 * 记忆摘要略微提高了平均准确率(51.52%到52.12%)。 * 记忆检索进一步提升了性能(到53.33%)。 * 长期记忆带来了最显著的提升,平均准确率达到55.76%,并在所有难度级别上都取得了有竞争力的结果。 * 测试时扩展 (TTS):反思 (Reflection): 整体适度提升3.03%,但在Level 3任务上意外下降6.62%,可能存在复杂推理链中的不稳定或错误积累。 * Best-of-N (BO N) 采样: 随着样本量增加,性能持续提升。BO2适度提升1.82%,BO4取得最佳整体性能(5.19%),尤其对简单任务(Level 1: 9.44%,Level 2: 10.46%)有显著益处。“这表明答案多样性有助于更有效地探索简单的解决方案空间。” * 挑战: 两种策略都未能显著提升Level 3任务的性能,凸显了在规模上实现鲁棒多步推理的持续难度。 4.3 BrowseComp 评估: * OAgents在BrowseComp基准测试中显著提升了模型的网络浏览能力。 * OAgents - GPT-4.1 和 OAgents - Claude-3-7 均达到了22.22%的性能,而单独的模型(Claude-3-7、GPT-4.1、OpenAI-o1)表现远低于此。 5. GAIA基准测试的评估协议问题 研究再次强调了GAIA基准测试中评估协议不一致的问题,特别是在使用不同Pass@K标准(Pass@1、Pass@3、Pass@5)方面。 * “这种不一致性使得不同代理框架之间的公平比较变得复杂,并限制了它们实际能力的透明度。” * 为了解决这个问题,研究重新实现了最先进的OWL框架以获得其Pass@1性能进行比较,并评估了OAgents在Pass@3设置下的性能。 * OAgents在Pass@3指标下,展示了在现有开源框架中的竞争力。 6. 结论 该研究对GAIA和BrowseComp进行了系统的实证研究,并得出以下关键结论: * 识别关键组件: 成功识别了有效代理的关键组件,包括规划、记忆和工具使用。 * 提出鲁棒的评估协议: 为解决现有评估中的再现性问题,提出了更鲁棒的评估协议。 * 发布OAgents: OAgents作为一个开源的模块化代理框架,在GAIA上实现了73.93%的最先进性能,为未来代理AI领域的研究奠定了基础。 附录:OAgents模块的详细提示 附录部分提供了OAgents中关键模块(规划、搜索代理、记忆、测试时扩展)所使用的详细提示文本,这些提示设计精巧,旨在引导LLM在各个环节中进行高效、准确的推理和操作。 这些详细的提示是OAgents框架能够实现高性能和模块化设计的关键,它们体现了在不同决策和行动阶段对LLM进行精细化引导的策略。 原文:[2506.15741] OAgents: An Empirical Study of Building Effective Agents
Chain-of-Memory:增强GUI代理的记忆范式本研究提出了 Chain-of-Memory (CoM),一种新颖的方法,旨在通过明确地建模短期记忆(STM)和长期记忆(LTM)来增强图形用户界面(GUI)代理在跨应用任务中的性能。现有方法通常依赖历史截图或操作来隐式表示任务状态,这导致代理难以准确理解任务状态,并在复杂、冗长的跨应用任务中缺乏有效的关键信息存储机制。为解决这些挑战,CoM 通过捕获操作描述、整合与任务相关的屏幕信息,并维护专用的记忆模块来存储和管理这些信息,使 GUI 代理能够更好地理解任务状态并持续保留关键历史信息。 最重要思想和事实 1. 现有 GUI 代理的局限性: * 任务状态理解不准确: 现有方法大多依赖于历史操作(如“Click(x,y)”)或纯粹的视觉历史截图来推断当前任务状态并做出后续决策。 * 信息冗余与关键信息丢失: “简单的操作日志提供的信息非常有限,而原始屏幕则引入了过多的冗余,往往在无关数据中掩盖了关键信息。”多模态大型语言模型(MLLMs)的上下文窗口大小限制了从历史屏幕中保留任务信息的能力,导致在一定步数后丢失关键信息(如先前的搜索结果),从而对代理的决策过程构成挑战。 * 跨应用任务挑战: 随着任务日益复杂,尤其是在跨应用场景下,仅依靠历史操作信息已不足以满足代理决策的需求。 1. Chain-of-Memory (CoM) 范式: * 受人类记忆启发: CoM 受人类在工作中信息交换和存储系统之间过程的启发,旨在使 GUI 代理以类人的方式识别和记忆任务。 * 核心组成部分: CoM 包含两个关键组件: * 短期记忆 (STM): “负责存储最近操作的语言描述,确保代理理解最新的任务上下文以做出明智的决策。”STM 维护最近的操作结果(最多 N 对,本文中 N 设置为 4),通过比较操作前后的屏幕状态生成文本表示,从而捕获有用的屏幕信息并消除冗余数据。 * 长期记忆 (LTM): “负责存储将来可能需要的信息,例如搜索结果或特定任务知识。”LTM 通过“屏幕信息”组件实现,该组件提取屏幕上与任务相关的关键信息并过滤掉无关元素,然后代理评估这些信息是否值得保存到长期记忆中。 1. CoM 工作流程(四步):信息感知 (Information Perception): 从之前的截图和历史操作中提取并总结数据。 2. STM 更新 (STM Update): 将最近获得的信息整合到短期记忆中。 3. LTM 存储 (LTM Storage): 从先前收集的数据中识别并存储关键信息到长期记忆中。 4. 行动决策 (Action Decision): 利用 STM 和 LTM 评估当前任务状态,并相应地做出后续决策。 5. GUI Odyssey-CoM 数据集: * 目的: 赋能小型模型具备记忆生成和利用能力,并评估 CoM 的有效性。 * 规模与特点: 基于 GUI Odyssey 构建,“包含 111,791 个屏幕-操作对,每个都标注了相关的记忆信息。”它是“目前最大的跨应用 GUI 导航数据集,包含多条高质量的文本信息标注。” * 数据质量保障: 数据生成模型为每个输入生成三个响应,并根据为每种数据类型定义的评估标准进行评分,选择得分最高的响应作为最终标注。 1. 实验结果与 CoM 的有效性: * 显著提升性能: “实验结果表明,CoM 显著提高了 GUI 代理在跨应用任务中的操作准确性、任务成功率和任务切换成功率。” * 长期记忆对文本操作的益处: 长期记忆“对基于文本的操作(例如检索先前搜索到的评价良好笔记本电脑的价格或共享先前确定的排队地址)特别有益。”尤其显著提升了 TYPE 操作的准确性。 * 短期记忆对任务状态的益处: 短期记忆“增强了代理跟踪当前任务状态的能力,从而显著提高了这些操作(如 CLICK, HOME, STOP)的准确性。” * 小型模型能力提升: “ fine-tuning 使 7B 模型能够有效利用记忆信息,实现了与 72B 模型相当的记忆信息生成能力,从而验证了 CoM 的有效性,并强调了 GUI Odyssey-CoM 的必要性。” * 屏幕信息的局限性: “在零样本或微调实验中,当 ScreenInfo 作为输入时,它会显著降低 GUI 代理的性能。”这可能是因为某些屏幕上存在不必要的外部信息,即使 ScreenInfo 与其他记忆组件集成,这种限制仍然存在。这强调了在记忆架构中选择性地保留信息的必要性。 * 短期记忆长度的影响: 短期记忆长度 N 对 AMS、TSS 和 SR 都有积极影响,但“在 N=4 之后,这种趋势趋于平稳,表明随着记忆长度的增加,回报递减。” 结论 CoM 范式及其配套的 GUI Odyssey-CoM 数据集有效解决了现有 GUI 代理在理解任务状态和保留关键信息方面的不足,尤其是在复杂的跨应用任务中。通过模拟人类的短期和长期记忆机制,CoM 显著提升了代理的性能,并使得小型模型也能获得强大的记忆管理能力。该研究强调了记忆机制对于构建更强大、更像人类的 GUI 代理的重要性。
Anthropic:如何构建多智能体研究系统Anthropic的“我们如何构建多智能体研究系统”一文详细介绍了其用于复杂主题探索的多智能体系统——Research功能。该系统利用多个Claude智能体协同工作,以克服单一大型语言模型(LLM)在处理开放式、不可预测的研究任务时所面临的局限性。文章深入探讨了多智能体架构的优势、工程挑战、提示工程原则、评估方法以及生产部署的可靠性考虑。核心思想是,通过让多个智能体并行工作并进行协调,可以显著提高研究的广度、深度和效率,尤其是在信息量庞大且需要多方面探索的任务中。 主要主题与重要见解 1. 多智能体系统是扩展AI性能的关键 * 不可预测任务的优势:研究工作本质上是开放式的,难以预先预测所有步骤。多智能体系统具有灵活性,可以根据中间发现动态调整方法,这使其特别适合研究任务。“当人们进行研究时,他们倾向于根据发现不断更新他们的方法,遵循调查过程中出现的线索。” * 并行化与信息压缩:子智能体通过在各自的上下文窗口中并行操作,同时探索问题的不同方面,然后将最重要的信息压缩并传递给主研究智能体,从而促进了信息压缩。这减少了路径依赖性并实现了彻底的独立调查。 * 性能规模化:“一旦智能达到某个阈值,多智能体系统就成为扩展性能的重要方式。”文中将此与人类社会的集体智慧类比,指出群体智能体能够比个体智能体完成更多任务。 * 显著的性能提升:内部评估显示,由Claude Opus 4作为主智能体和Claude Sonnet 4作为子智能体组成的多智能体系统,在内部研究评估中比单一智能体Claude Opus 4的性能高出90.2%。 * token 使用效率:多智能体系统通过在具有独立上下文窗口的智能体之间分配工作,有效扩展了token的使用,从而处理超出单一智能体限制的任务。 1. 多智能体架构:“编排者-工作者”模式 * 架构概览:Research系统采用“编排者-工作者”模式,其中一个主智能体协调整个过程,并委派任务给专门的并行子智能体。 * 动态适应性:与传统的检索增强生成(RAG)不同,该架构使用多步搜索,动态地寻找相关信息,适应新发现,并分析结果以形成高质量的答案。 * 工作流程:用户查询提交后,主智能体分析、制定策略,并生成子智能体并行探索不同方面。子智能体作为智能过滤器,使用搜索工具收集信息,然后将发现返回给主智能体进行综合。 * 记忆与上下文管理:主研究员会将计划保存到记忆中,以持久化上下文,防止上下文窗口溢出。当上下文限制接近时,智能体可以生成具有干净上下文的新子智能体,并通过精心移交来保持连续性。 1. 提示工程:引导智能体行为的关键 * 核心挑战:多智能体系统面临协调复杂性快速增长的问题,早期智能体容易出现错误,例如为简单查询生成过多子智能体,无休止地搜索不存在的来源,或因过度更新而分散彼此注意力。 * 关键原则: 1. 像智能体一样思考:通过模拟和观察智能体的逐步工作来理解提示的效果,从而发现故障模式。 2. 教导编排者如何委派:主智能体需要向子智能体提供明确的目标、输出格式、工具和来源指导以及清晰的任务边界,以避免重复工作或遗漏。 3. 根据查询复杂性调整投入:在提示中嵌入缩放规则,指导主智能体根据任务复杂性(简单事实查询、直接比较、复杂研究)高效分配资源(智能体数量、工具调用次数)。 4. 工具设计和选择至关重要:明确工具的用途和清晰的描述,并提供使用启发式规则(如先检查所有可用工具,根据用户意图匹配工具,优先使用专业工具)。 5. 让智能体自我改进:Claude 4模型在诊断故障和建议提示改进方面表现出色。一个工具测试智能体甚至可以重写工具描述以避免未来错误,从而显著减少任务完成时间。 6. 先广后窄的搜索策略:提示智能体从简短、宽泛的查询开始,评估可用信息,然后逐步缩小焦点,以模仿人类专家的研究方法。 7. 引导思维过程(思考模式):利用Claude的扩展思考模式作为可控的草稿,让主智能体规划方法,子智能体评估工具结果、识别差距并细化查询,从而提高指令遵循、推理和效率。 8. 并行工具调用:引入两种并行化以提高速度:(1) 主智能体并行启动多个子智能体;(2) 子智能体并行使用多个工具。这可以将复杂查询的研究时间缩短高达90%。 * 启发式而非硬性规则:提示策略侧重于灌输良好的启发式方法,模拟人类专家的研究方法,例如分解问题、评估来源质量、调整搜索方法以及区分深度与广度。 1. 有效评估的策略 * 多智能体评估的挑战:多智能体系统是非确定性的,即使起点相同,智能体也可能采取不同的有效路径达到目标。评估需要判断“是否实现了正确的结果,同时也遵循了合理的过程”,而不仅仅是检查是否遵循了预设的“正确”步骤。 * 评估方法: 1. 从小样本开始立即评估:早期开发阶段,即使是小样本测试(约20个查询)也能清晰地显示出重大变化的影响,因为效果规模很大。 2. LLM 作为判断者:LLM非常适合评估自由形式的文本输出,并能根据准确性、引用、完整性、来源质量和工具效率等标准进行评分。使用单个LLM调用进行评分并给出通过/失败等级最为一致。这种方法允许可扩展地评估数百个输出。 3. 人工评估弥补自动化不足:人类测试者能发现自动化评估遗漏的边缘案例,如幻觉答案、系统故障或微妙的来源选择偏差(例如早期智能体倾向于SEO优化内容农场而非权威来源)。 4. 生产可靠性与工程挑战 * 状态与错误复合:智能体是状态化的,长时间运行,小错误可能导致灾难性后果。需要构建系统来从错误发生处恢复,并让智能体智能地适应(例如,当工具失败时)。结合了Claude的适应性与确定性保障(如重试逻辑和定期检查点)。 * 调试新方法:智能体动态决策且非确定性,使得调试困难。完整的生产跟踪(tracing)有助于诊断故障原因。高层次的智能体决策模式和交互结构监控有助于发现根本原因和意外行为。 * 部署协调:智能体系统是高度状态化的提示、工具和执行逻辑的网络。部署更新时需要小心协调,例如使用“彩虹部署”逐步转移流量,以避免中断正在运行的智能体。 * 同步执行的瓶颈:当前的主智能体同步执行子智能体,简化了协调但造成了信息流瓶颈。未来的异步执行将实现更大程度的并行化,但会带来结果协调、状态一致性和错误传播的挑战。 关键事实与数据 * 多智能体系统在内部研究评估中比单一智能体Claude Opus 4的性能高出90.2%。 * 在BrowseComp评估中,token 使用量本身解释了**80%**的性能差异,其次是工具调用次数和模型选择。 * 智能体通常使用的token量是聊天互动的4倍,而多智能体系统使用的token量是聊天的15倍。这意味着经济可行性需要任务价值足够高以支付增加的性能成本。 * 并行化(主智能体并行启动3-5个子智能体,子智能体并行使用3个以上工具)使复杂查询的研究时间缩短了高达90%。 * 通过让智能体自我改进工具描述,任务完成时间减少了40%。 * Research功能的前五大用例类别: * 开发跨专业领域的软件系统 (10%) * 开发和优化专业技术内容 (8%) * 开发业务增长和收入生成策略 (8%) * 协助学术研究和教育材料开发 (7%) * 研究和验证关于人物、地点或组织的信息 (5%) 结论与启示 Anthropic的经验表明,尽管从原型到生产的多智能体系统面临诸多挑战(例如错误复合、调试复杂性、部署协调和同步执行限制),但它们在处理开放式、复杂研究任务方面具有巨大的价值。成功的关键在于: * 精心的工程设计:构建能够处理状态、错误恢复和弹性部署的鲁棒系统。 * 全面的测试与评估:结合小样本快速迭代、LLM作为判断者的大规模评估以及人工测试以捕捉边缘案例。 * 细致的提示与工具设计:将人类专家研究策略编码为智能体行为启发式,明确委派任务,并确保工具清晰、有效。 * 强大的可观察性与反馈循环:了解智能体决策模式和交互结构对于诊断和修复问题至关重要。 * 跨团队协作:研究、产品和工程团队的紧密合作以及对当前智能体能力的深入理解。 多智能体系统通过提供前所未有的广度、深度和效率,正在改变人们解决复杂问题的方式,帮助用户发现商业机会、导航复杂选项、解决技术难题,并节省大量研究时间。 原文:How we built our multi-agent research system \ Anthropic
GUI-Actor:无坐标GUI智能体视觉定位1. 核心思想与主要贡献 核心挑战: 构建由VLM(视觉语言模型)驱动的GUI(图形用户界面)智能体时,视觉定位(Visual Grounding)是一个关键挑战。视觉定位是指根据视觉内容和文本指令,在屏幕上找到执行动作的适当区域。现有方法通常将其公式化为基于文本的坐标生成任务,但这存在多重局限性: * 空间-语义对齐弱: 缺乏显式空间监督,模型难以将视觉输入与数值坐标直接关联。 * 监督目标模糊: 许多GUI动作(例如点击按钮)允许在有效区域内有多种有效位置,而单点预测会惩罚所有偏差,即使是合理的偏差。 * 视觉与动作空间粒度不匹配: 坐标是连续高分辨率的,但Vision Transformer等视觉模型提取的视觉特征是粗粒度的补丁级别,导致模型难以从粗糙的视觉特征推断出像素级别的精确动作,从而影响泛化能力。 GUI-Actor的创新方案: GUI-Actor提出了一种“无坐标”的GUI定位方法,旨在模仿人类与界面交互的方式——人类不是计算精确坐标,而是直接感知目标元素并与之交互。 * 注意力机制的动作头: GUI-Actor引入了一个专用的 token。这个token在联合处理视觉输入和自然语言指令后,通过一个注意力机制,与所有相关的视觉补丁token对齐,从而在单次前向传播中提出一个或多个动作区域。 * 多补丁监督: 摒弃单点监督,GUI-Actor训练时将所有与真实边界框部分或完全重叠的视觉补丁标记为正例,从而能够容忍空间模糊性并减少对合理动作变体的过度惩罚。 * 定位验证器(Grounding Verifier): 为了进一步提高准确性,GUI-Actor还设计了一个轻量级的定位验证器。该验证器能够评估多个候选动作区域,并选择最合理的一个进行动作执行。这个验证器可以轻松集成到其他定位方法中以提升性能。 主要贡献总结: 1. 重新审视了现有基于坐标生成的GUI视觉定位方法的局限性,并提出了GUI-Actor这一新颖的无坐标方法来有效解决这些问题。 2. 设计了一个基于注意力的动作头,能够在单次前向传播中生成多个候选区域。 3. 引入了定位验证器,用于从注意力图中提出的候选区域中选择最可能的动作区域,并证明其可以与其他定位方法结合使用以提升性能。 4. 在多个GUI动作定位基准测试中,GUI-Actor展现出超越现有SOTA方法的性能,且对未见过的屏幕分辨率和布局表现出更强的泛化能力。 2. GUI-Actor的设计细节 * 传统的坐标生成方法将屏幕坐标作为文本token输出(如x=0.123, y=0.234)。GUI-Actor用三个特殊token , , 替换了坐标段,使用的最后一层隐藏状态作为上下文锚点,用于计算视觉补丁上的动作注意力。 * 注意力机制的动作头:首先,对VLM视觉编码器提取的视觉补丁特征应用自注意力层,使属于同一GUI元素的补丁共享连贯的表示。 * 然后,将 token的表示和上下文化的补丁特征分别投影到共享的嵌入空间。 * 最后,计算 token与每个视觉补丁之间的注意力分数,形成一个屏幕上的注意力图,指示最相关的动作区域。 * 空间感知多补丁监督: GUI-Actor利用边界框监督提供密集且空间结构化的学习信号。所有与真实边界框部分或完全重叠的图像补丁都被标记为正例,其余为负例。这种策略允许模型有效捕获可操作元素的完整空间范围,并处理固有的模糊性。 * 训练目标: 结合了下一token预测(NTP)损失和动作注意力损失。动作注意力损失通过KL散度计算,将预测的注意力分布与从二值掩码导出的归一化目标分布对齐。 3. 定位验证器(Grounding Verifier) * 设计理念: “验证通常比生成更容易”。GUI-Actor的注意力机制可以自然地产生多个候选动作区域,验证器利用这一点来细化决策。 * 数据与训练: 验证器训练数据从OS-Atlas数据集构建,包括桌面、移动和Web领域的数据。 * 正例: 在真实边界框中心放置视觉标记(空心红色圆圈)。 * 负例: 1. 在同一图像中选择一个不正确的边界框中心。2. 随机采样目标区域之外的点。 * 训练目标是标准的交叉熵损失,模型输入(图像+标记点,指令),输出“True”或“False”标记。 * 推理: GUI-Actor首先生成包含 token的代理响应。然后,提取的隐藏状态,通过动作头计算所有视觉补丁的注意力。 * 验证器通过在图像上标记提议的位置来评分每个候选区域,并评估其与指令的一致性。选择分数定义为P_true / (P_true + P_false)。 * 候选区域按注意力权重降序评估,一旦找到超过置信阈值(如0.95或0.8)的区域,就立即返回。 4. 实验结果与分析 GUI-Actor在多个GUI视觉定位基准测试中表现出色: * 性能提升: 在ScreenSpot-Pro、ScreenSpot和ScreenSpot-v2基准测试中,GUI-Actor(2B和7B模型)持续优于现有SOTA方法。例如,GUI-Actor-7B(基于Qwen2.5-VL)在ScreenSpot-Pro上达到44.6分,优于UI-TARS-72B的38.1分,而参数量和训练数据显著更少。 * 引用: “GUI-Actor-7B achieves scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones, outperforming UI-TARS-72B (38.1) on ScreenSpot-Pro, with significantly fewer parameters and training data.” * 鲁棒的域外泛化能力: 在ScreenSpot-Pro(包含高分辨率界面和显著领域偏移)上的表现尤其突出,GUI-Actor-2B和GUI-Actor-7B分别超越SOTA模型UI-TARS +9.0和+5.0点。这归因于其显式的空间-语义对齐和对补丁级视觉特征的直接定位,避免了坐标生成方法的粒度不匹配问题。 * 更高的样本效率: GUI-Actor仅使用约60%的训练数据就能在ScreenSpot和ScreenSpot-v2上达到最终准确率,优于AGUVIS的坐标生成模型(在80-90%数据后才趋于平稳)。这表明其多补丁监督策略和显式空间-语义对齐提高了学习效率。 * 骨干VLM的通用性: 通过轻量级训练(GUI-Actor-LiteTrain,冻结骨干VLM,仅训练新引入的动作头和特殊token),GUI-Actor仍能显著提升骨干VLM的GUI定位能力,甚至与完全微调的坐标生成模型相媲美。这表明骨干VLM本身已具备强大的UI截图感知能力,而GUI-Actor能够有效地赋予其定位能力,同时不损害其通用能力。 * 引用: “GUI-Actor-LiteTrain retains the backbone’s original language and vision-language capabilities, demonstrating that lightweight integration can enable grounding without compromising generality.” * 定位验证器提升性能: 实验结果一致表明,定位验证器能有效提升定位准确率,尤其是在ScreenSpot-Pro这种更具挑战性的基准上,GUI-Actor-7B的性能提升了近4点,GUI-Actor-7B-LiteTrain更是提升了13点。 * 多区域预测而无额外推理成本: GUI-Actor基于注意力的定位机制能够在单次前向传播中生成多个候选动作区域,无额外推理成本。相比之下,坐标生成模型即使采样多次,输出也往往高度相似。GUI-Actor的候选区域是相互独立的,提高了捕获所有有效动作区域的机会。 * OS-World-W在线评估: 在OS-World-W(49个Windows特定任务)的在线评估中,GUI-Actor-7B作为动作定位模块,实现了12.2%的任务成功率,优于OmniAgent和NAVI(10.2%),并显著超越Aguvis-7B(4.0%)。这验证了GUI-Actor在复杂真实世界GUI环境中的有效性和鲁棒性。 5. 局限性 * 小元素识别挑战: 现有骨干VLM(如Qwen2-VL)采用固定补丁大小(28x28像素)的朴素动态分辨率策略。这使得处理非常小的界面元素(如小于10x10像素的图标)时面临挑战,因为这些细粒度细节可能无法充分表示。尤其在需要高精度控制的专业软件(如CAD工具)中,这一问题可能更明显。 6. 结论 GUI-Actor提出了一种新颖的无坐标视觉定位框架,通过引入 token和基于注意力的动作头,直接在屏幕上定位GUI元素。这种机制明确地将空间视觉特征与指令的语义信号对齐,并自然地支持基于边界框的多补丁监督,从而减轻了单点预测固有的模糊性。得益于其单次传播即可提出多个候选区域的能力,GUI-Actor进一步采用轻量级验证器在推理时选择最合理的点击目标。实验证明,GUI-Actor在各种基准测试中超越了现有SOTA方法,并对未见过的布局和屏幕分辨率展现出更强的泛化能力。对框架中各组件的广泛分析突显了其在推进视觉GUI智能体方面的巨大潜力。 原文:[2506.03143] GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
通过UI分解与合成扩展Computer-Use定位能力这篇论文通过引入更全面的基准 OSWORLD-G 和迄今为止最大的合成数据集 JEDI,显著推动了 GUI 接地领域的发展。研究表明,现有基准未能捕捉真实世界交互的复杂性,而 OSWORLD-G 通过细粒度的任务分类和标注解决了这一问题。JEDI 数据集通过多视角任务分解和合成技术,为训练更强大的接地模型提供了大规模、多样化的数据。实验证明,基于 JEDI 训练的模型在接地能力上取得了显著提升,并且这种改进的接地能力直接促进了通用基础模型在复杂计算机使用任务上的智能体表现,达到了与现有专用模型相当甚至超越的水平。论文强调,增强接地能力是构建高效计算机使用智能体系统的重要方向。未来的工作将进一步探索利用互联网数据和构建类人导航器来扩展数据集和提升模型能力。 主要主题: * GUI 接地的挑战: 现有的 GUI 接地基准过于简化,无法捕捉真实世界交互的复杂性,包括软件常识、布局理解和精细操作。 * OSWORLD-G 基准: 引入一个更全面、细粒度的 GUI 接地基准,涵盖多种任务类型,以更好地评估智能体的真实世界交互能力。 * JEDI 数据集: 构建和发布迄今为止最大的计算机使用接地数据集,通过多视角分解任务来提高数据量和多样性。 * 多尺度模型和性能提升: 利用 JEDI 数据集训练的多尺度模型在现有及新基准上均取得了最先进的性能。 * 接地能力对智能体能力的影响: 改进的接地能力直接提升了通用基础模型在复杂计算机任务上的智能体表现。 * 数据合成和泛化: 结合不同界面元素的专门数据能够实现对新界面的组合泛化。 关键思想和事实: 1. GUI 接地的重要性: * 论文开篇即强调 GUI 接地是计算机使用智能体有效与图形用户界面交互的基石。 * “Graphical user interface (GUI) grounding, the ability to accurately map natural language instructions to specific actions (including the positions of on-screen elements), is a cornerstone for computer use agents to effectively interact with GUIs on devices such as mobile phones and desktop computers.” (摘要和引言) * 它不仅是一个孤立的人机交互组件,也是多模型协作智能体和端到端模型的促进者。 1. 现有基准的局限性: * 现有基准(如 ScreenSpot-v2)将接地任务过度简化为简短的指代表达式,无法体现真实世界交互所需的复杂性。 * “Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities.” (摘要) * 现有评估方法缺乏细微差别或通过不自然条件(如 ScreenSpot-Pro 的极端分辨率)人为增加难度。 1. OSWORLD-G 基准的构建和特点: * OSWORLD-G 是一个综合性基准,包含 564 个经过精细标注的样本。 * 样本来源于 OSWorld 基准环境的实际操作,涵盖多样化的元素、细粒度组件和丰富的布局。 * 标注包括指令和对应的边界框,即使是文本编辑等细粒度任务也能确定像素区域。 * 采用 CVAT 2 平台进行标注,由熟悉软件细节的人员完成并经过实际测试验证。 * 每个样本都分配了细粒度的 UI 类型标签,并提供了无需软件知识即可执行的改写指令。 * 平均每个样本标注时间约为 0.5 人时。 1. OSWORLD-G 的任务类型和能力维度: * OSWORLD-G 将任务分为五种能力维度,反映核心模型能力: * Text Matching (文本匹配): 根据指令中明确的文本信息进行接地(例如:“Select ‘As Attachment‘”)。包含 268 个样本。 * Element Recognition (元素识别): 识别图标、图像、按钮等视觉模式,并根据隐含功能识别元素(例如:通过软盘图标识别“保存”按钮)。包含 337 个样本。 * Layout Understanding (布局理解): 理解选项卡、菜单栏、下拉菜单、面板等布局结构。包含 252 个样本。 * Fine-grained Manipulation (细粒度操作): 对滑块、步进器、文本字段、输入框、分割线、表格等进行精确操作。包含 154 个样本。 * Refusal (拒绝): 识别和拒绝不可行指令(例如:当屏幕上没有 Firefox 图标时,执行“Click to open the Firefox browser”)。包含 54 个样本。 * “Leveraging the fine-grained element type tags, we categorize tasks into capabil-ity dimensions that directly reflect core model competencies: text matching, el-ement recognition, layout understanding, fine-grained manipulation, and refusal han-dling, as presented in Table 1.” (方法部分) 1. JEDI 数据集的合成和特点: * JEDI 是通过多视角任务分解合成的迄今为止最大的计算机使用接地数据集,包含 400 万个示例。 * 数据合成主要通过代码-渲染管道实现,利用主流生产级 UI 组件库(如 Material UI)的示例代码,并使用 LLM 合成特定任务的功能案例。 * 渲染结果提供视觉截图,并提取元数据(元素位置树、组件名称、坐标等)。 * 数据来源多样,包括现有数据集(AGUVIS++、OS-Atlas、SeeClick、WebUI、GUIEnv、OmniACT 等)和内部标注数据。 * 内部标注数据通过记录人类使用计算机时的行为和屏幕截图生成。 * 数据集包含 Icon Captioning、Icon Grounding、Component Manipulation、Layout Captioning 和 Refusal Data 等多种类型。 1. 模型训练和性能评估: * 使用不同大小的最新 Qwen2.5-VL [5] 作为骨干模型进行微调。 * 在 ScreenSpot-v2、ScreenSpot-Pro 和 OSWORLD-G 等基准上评估接地能力。 * 在 OSWorld 和 WindowsAgentArena 等在线环境上评估智能体能力。 * 接地能力结果 (Table 4, OSWORLD-G):JEDI-7B 在 Text Matching (65.9%)、Element Recognition (55.5%)、Layout Understanding (57.7%) 和 Fine-grained Manipulation (46.9%) 上的表现均优于其他模型。 * 整体准确率 JEDI-7B (54.1%) 优于其他模型。 * 模型在文本匹配上表现最好,在细粒度操作上表现最差。 * 除 Gemini-2.5-Pro 外,大多数模型(包括专门训练的模型)很少产生拒绝预测。 * 智能体能力结果 (Table 5):使用 JEDI 模型作为接地组件时,使用 GPT-4o 作为规划器的简单智能体在 OSWorld 和 WindowsAgentArena 上取得了最先进的性能。 * “The results demonstrate that, when using our model as the grounding component, a simple agent with foundation models that are not spe-cialized in computer use tasks can achieve state-of-the-art performance, surpassing previous ap-proaches that used 72B-scale models for ground-ing, and matching the performance of special-ized models.” (实验部分) * 性能随着部署规模(步数)的增加而提高。 * 这表明增强接地能力是构建高效智能体系统的起点。 1. 数据合成和泛化能力: * 通过详细的消融研究,发现结合不同界面元素的专门数据有助于实现对新界面的组合泛化。 1. 限制和未来工作: * 主要讨论数据合成方法,未来的扩展可以通过神经网络从互联网图像和视频中提取屏幕截图数据。 * 基于增强的接地模型,可以构建类人的导航器,在数字世界中互动,收集更多互动数据以进一步提高接地能力和模型知识。 原文:[2505.13227] Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
MONDAY:可扩展的视频到数据集生成概述: 这篇论文介绍了 MONDAY(Mobile OS Navigation Task Dataset for Agents from YouTube),这是一个大规模的数据集,包含从 2 万个教学视频中提取的 31.3 万个带注释的帧,涵盖了多种平台(iOS 和 Android)上真实的移动操作系统导航任务。该数据集旨在解决现有移动操作系统数据集的局限性,例如规模小、依赖手动标注、过时快以及对不同用户配置和真实世界任务覆盖不足等问题。为了实现数据集的持续扩展,该论文提出了一种自动化框架,该框架利用公开可用的视频内容生成全面的任务数据集,无需手动标注。MONDAY 数据集和自动化收集框架被贡献出来,以促进移动操作系统导航领域的未来研究。 主要主题和重要思想/事实: 1. 现有移动操作系统数据集的局限性: * 目前的移动操作系统数据集存在一些显著的限制。例如,Android in the Wild (AitW) [41] 仅限于使用系统日志的 Pixel 模拟器,而 AndroidControl [22] 和 AMEX [4] 缺乏多平台覆盖。MobileEnv [53] 和 AndroidEnv [49] 也专注于模拟环境,无法反映真实世界的导航多样性。ScreenSpot [8] 虽然涵盖多个平台,但仅支持 GUI 接地(GUI grounding)。 * “Manual annotation is time-consuming, rapid OS updates quickly make existing datasets obsolete, and they cover only a limited range of user configurations and real-world tasks.”(手动标注耗时,快速的操作系统更新很快使现有数据集过时,并且它们只覆盖有限的用户配置和真实世界任务。) 1. MONDAY 数据集: * MONDAY 是一个大规模的移动操作系统导航数据集,包含从 YouTube 上的真实世界教学视频中提取的 2 万个视频和 31.3 万个带注释的帧。 * 该数据集涵盖了广泛的真实世界移动操作系统任务和导航过程,包括单点操作(触摸、长按)、基于运动的操作(滚动、多点触控、缩放)、文本输入(打字)和硬件特定操作(主页、返回、音量控制等)。 * MONDAY 数据集提供跨不同平台和配置的广泛覆盖,这是现有数据集所不具备的。 * 数据集是通过利用 YouTube 上包含丰富真实世界任务和环境的公开可用移动操作系统教学视频构建的,无需手动标注。 * 数据集分为训练集(19,725 个视频)、验证集(495 个视频)和测试集(100 个视频)。验证集和测试集在平台(iOS 和 Android)之间保持平衡分布。 * 视频时长主要集中在 1-5.5 分钟之间,平均时长为 2.66 分钟,反映了移动操作系统教学内容的典型长度。 * 数据集中的动作分布反映了真实世界的使用模式,其中触摸操作占多数(79.83%),其次是滚动(8.53%)和其他操作。 * 数据集包含 2,479 个独特的应用程序,其中操作系统原生应用程序和第三方应用程序的比例为 37.6% : 62.4%,平衡地代表了移动设备的使用情况。 1. 自动化数据集收集框架: * 该论文提出了一个自动化的框架,用于处理教学视频并创建任务数据集,以实现数据集的持续扩展。 * 框架包括以下关键组件: * 基于 OCR 的场景检测: 使用 Paddle OCR [21] 从连续帧中提取文本及其位置,通过跟踪相同屏幕位置的文本元素并在文本丢失或更改时标记过渡,从而实现鲁棒的场景过渡检测。该方法的 F1 分数达到 95.04%,显著优于传统的基于视觉的方法。 * UI 元素检测: 结合使用 GroundingDINO [26] 进行图标检测和使用 OCR [21] 进行文本检测,然后进行专门设计的移动特定启发式过滤,以识别真实的交互元素。该方法在评估数据集上的 Hit Ratio 达到 99.87%,显著优于 OmniParser [28]。 * 三步行动识别: 使用 GPT-4o [37] 实现精确的行动本地化,包括场景摘要、初始行动识别(使用 Set-of-Marks (SoM) 表示 [52])和行动细化。该过程利用视频叙述来消除复杂场景中动作的歧义。 * “Our framework comprises robust OCR-based scene detection (95.04% F1-score), near-perfect UI element detection (99.87% hit ra-tio), and novel multi-step action identification to extract re-liable action sequences across diverse interface configura-tions.”(我们的框架包括鲁棒的基于 OCR 的场景检测(95.04% 的 F1 分数)、近乎完美的 UI 元素检测(99.87% 的命中率)和新颖的多步行动识别,以在各种界面配置中提取可靠的行动序列。) * 该自动化框架可以可靠地提取导航过程,无需平台特定的适应。 1. 跨平台泛化能力: * 将 MONDAY 纳入预训练阶段的模型展示出强大的跨平台泛化能力。 * 与使用现有单一操作系统数据集训练的模型相比,包含 MONDAY 的模型在未见过的移动操作系统平台(Windows Mobile)上的平均性能提升了 18.11%p。 * “Moreover, models that include MONDAY in their pre-training phases demonstrate superior generalization capa-bilities across different platforms, while achieving an av-erage performance gain of 18.11%p on unseen mobile OS compared to existing approaches.”(此外,将 MONDAY 纳入预训练阶段的模型展示出卓越的跨平台泛化能力,与现有方法相比,在未见过的移动操作系统上实现了 18.11%p 的平均性能提升。) * 这种成功的泛化能力归因于数据集的多平台特性和多样性,这有助于模型学习与平台无关的导航模式,以及接触各种 UI 布局和配置。 1. 行动识别的准确性: * 论文评估了不同消融方法下的行动识别准确性。 * 论文提出的多图像三步法在所有指标上都优于更简单的变体,证明了每个组件的重要性。 * 多图像三步法的总体行动识别准确性为 80.90%,触摸行动识别准确性为 91.84%。 * 最终细化步骤对于精确本地化动作至关重要,从三步法到两步法的性能下降(91.84% 到 89.97%)证明了这一点。 * 叙述和时间上下文对于移动操作系统导航中的行动识别至关重要,没有叙述或仅使用单图像的方法表现较差。 1. 与其他方法的比较: * MONDAY 在数据集规模、真实世界数据、代码访问和多平台覆盖方面优于现有移动操作系统导航数据集,同时消除了手动人工标注的需要(见表 1)。 * 基于 OCR 的场景检测方法在 F1 分数上(95.04%)显著优于基于视觉的基线方法 YUV-diff (70.86%) 和 SceneCut (82.27%)(见表 2)。 * 提出的 UI 元素检测方法在 Hit Ratio 上(99.87%)显著优于 OmniParser [28] (91.83%)(见表 3)。 * 使用 MONDAY 训练的模型在下游移动导航任务中的表现优于基线模型,尤其是在未见过的 Windows Mobile 平台上的泛化能力。 1. 未来工作和影响: * 自动化框架无需人工干预即可提取准确的行动序列,代表着朝着可扩展移动操作系统数据集迈出的重要一步。 * 模块化设计允许集成专门的模型或替换 GPT-4o,从而使系统适应未来模型能力的改进。 * 这项工作为开发更鲁棒、适应性更强的移动操作系统 GUI 可视代理开辟了新的可能性,尤其适用于界面多样性和跨平台操作至关重要的实际应用。 * 组织可以将其方法应用于自己的教学视频,以实现对新界面模式和操作系统版本的持续适应。 原文:[2505.12632] Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents
GUI-G1:优化GUI智能体视觉定位训练本研究深入分析了GUI(图形用户界面)Agents中R1-Zero类训练范式的关键挑战,并提出了针对性的解决方案,以提升视觉定位(grounding)任务的性能。 核心思想/发现: 1. 对R1-Zero类训练范式的关键组件进行分解和分析: 作者将R1-Zero类训练管线分解为三个核心组件:输入设计(模板)、输出评估(奖励函数)和策略更新(RL目标)。 * 输入设计(模板): 现有的模板鼓励模型生成链式思考(chain-of-thought reasoning),但这对于GUI定位任务来说适得其反。 * 关键发现: "Longer thinking leads to worse grounding performance." 延长思考链不仅不是必须的,反而会损害GUI定位的准确性,尤其是在目标为文本元素时。 * 关键发现: 定位任务更多依赖于图像tokens的适当缩放,而非文本思考的增加。 "Grounding benefits from appropriately scaled image tokens rather than from scaled text thinking." * 输出评估(奖励函数): 基于命中信号(Hit-based)或框面积(IoU-based)的奖励函数会导致模型利用框大小进行奖励黑客攻击(reward hacking)。 * 关键发现: "Individually optimizing RHit and RIoU leads to conflicting reward hacking behaviors." 单独优化Hit奖励会鼓励更小、更准确的框,但降低IoU;单独优化IoU奖励则倾向于更大、重叠度更高的框,但降低准确性。这两种奖励捕获了互补但相互冲突的方面。 * 关键发现: GRPO(一种RL算法)的样本选择偏向不同的框大小,导致了奖励黑客攻击。训练中使用RHit倾向于预测小于真实值的框,而使用RIoU则倾向于预测大于真实值的框。 * 策略更新(RL目标 - GRPO算法): 原始的GRPO目标存在长度偏差(length bias)和难度偏差(difficulty bias)。 * 关键发现: "Response-level length bias: longer responses are preferred among incorrect ones, while shorter responses are favored among correct ones." GRPO倾向于让不正确的回答更长,正确的回答更短。这对定位任务尤其有害,因为长输出会降低准确性。 * 关键发现: "Question-level difficulty bias: assigning higher weights to harder samples during policy updates is desirable." GRPO的标准化处理可能导致模型过度关注简单样本。在本研究中,目标相对框大小可以作为任务难度的代理。 1. 提出针对上述问题的三项改进措施: * 快速思考模板(Fast Thinking Template): 采用不包含中间思考的模板,鼓励模型直接生成答案,减少训练过程中的冗余思考。 * 框大小约束的奖励函数(Box size–based reward): 在结合RHit和RIoU的基础上引入RBox奖励,通过正则化预测框的大小来缓解奖励黑客攻击问题。RBox单独使用会失效,需要与RHit和RIoU结合使用。 * 改进的GRPO目标:移除原始GRPO目标中的长度归一化项(即用常数Max_Tokens替换|oi|)。 * 引入难度系数(difficulty coefficient)加权GRPO目标,使得模型在更困难的样本上获得更大的梯度,从而更好地学习。难度系数根据相对框大小计算,相对框越小,难度越大,权重越高。 1. 提出的GUI-G1-3B模型在GUI定位基准上取得当前最优(State-of-the-Art)性能: * GUI-G1-3B基于Qwen2.5-VL-3B-Instruct,仅使用少量(约17K)公共数据集(UI-BERT和OS-Atlas)中的定位样本进行训练。 * 在ScreenSpot数据集上达到90.3%的准确率,在更具挑战性的ScreenSpot-Pro数据集上达到37.1%的准确率。 * 性能超越了同等规模及更大的现有模型(包括UI-TARS-7B),且需要的训练数据更少、输出tokens更少、训练阶段也更少。 支持引用的关键句子: * "Longer thinking leads to worse grounding performance." (Sec. 3.1) * "Grounding benefits from appropriately scaled image tokens rather than from scaled text thinking." (Sec. 3.1) * "Individually optimizing RHit and RIoU leads to conflicting reward hacking behaviors." (Sec. 3.2) * "Response-level length bias [25]: longer responses are preferred among incorrect ones, while shorter responses are favored among correct ones." (Sec. 3.3) * "Question-level difficulty bias: assigning higher weights to harder samples during policy updates is desirable." (Sec. 3.3) * "Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro." (Abstract and Sec. 1) * "This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding." (Abstract) * "Trained on only 17K fully open-source grounding samples, our GUI-G1-3B achieves state-of-the-art performance while using fewer tokens when testing." (Sec. 1) 结论: 本研究对现有R1-Zero类训练范式在GUI定位任务中的应用进行了深入剖析,揭示了输入模板、奖励函数和RL目标中的具体挑战。通过提出快速思考模板、含框大小约束的奖励以及改进的GRPO目标,成功解决了这些问题。实验证明,这些改进措施使得模型在少量数据上也能取得显著的性能提升,并在GUI定位基准上树立了新的标杆,同时也提高了模型的效率。研究强调了针对具体任务调整RL训练范式的重要性。 未来工作和局限性: * 研究目前仅聚焦于定位任务,未来可扩展到动作预测和长程规划等更复杂的GUI交互任务。 * RL分析主要集中在GRPO,其他训练因素(如数据集构成、模型设计、超参数)未完全探索。 * 训练数据量相对有限,更大规模和多样化的数据集有望进一步提升性能上限。 相关工作: 论文简要回顾了GUI Agents中的定位研究以及MLLMs的R1-Zero类训练,并指出本工作与现有方法的区别在于,本工作探讨了如何在最小数据量和R1-Zero类训练方法下激活MLLM的GUI定位能力,并针对性地改进了训练范式。 总而言之, 这篇论文深入分析了当前基于RL(特别是R1-Zero类)训练GUI Agents进行视觉定位时存在的问题,包括不必要的长思考链、奖励函数的奖励黑客攻击以及GRPO的长度和难度偏差。作者提出了创新性的解决方案,并在有限的数据上训练出了性能领先、效率更高的GUI-G1模型,为GUI Agents的定位能力发展提供了重要指导。 原文:[2505.15810] GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
UIShift:通过自监督强化学习增强 GUI 代理该研究提出了一种名为 UIShift 的新框架,旨在通过自我监督的强化学习(RL)来提升视觉语言模型(VLMs)在图形用户界面(GUI)代理方面的性能。与传统依赖大量人工标注数据的监督微调(SFT)不同,UIShift 利用了一种新颖的自我监督任务——k步UI转换,从未标记的GUI轨迹中学习,从而克服了数据收集成本高昂且易出错的挑战。通过将k步UI转换任务与组相对策略优化(GRPO)相结合,UIShift能够有效地训练VLM,使其专注于与用户动作相关的UI变化,并泛化到下游的GUI任务。研究结果表明,即使使用相对较少的数据(2K训练样本),UIShift也能在GUI接地和任务自动化基准测试中达到或超越现有的SFT基线和特定的GUI模型,并且发现推理在这些任务中并非必需。 主要主题和重要观点/事实: 1. 挑战:GUI代理的监督微调(SFT)数据收集成本高昂且难以扩展。 * 传统的VLM-based GUI代理训练方法严重依赖于在大型标注数据集上进行SFT。 * 这些数据集的收集是“labor-intensive and error-prone”(劳动密集型且易出错),例如 AndroidControl 数据集需要一年的付费标注工作才能获得15,283个任务演示。 * 这种高成本使得SFT范式难以大规模应用。 1. 核心贡献:UIShift框架及其自我监督的k步UI转换任务。 * UIShift 是一种“self-supervised reinforcement training framework”(自我监督的强化训练框架),用于微调GUI-specific VLM。 * 该框架的核心是“k-step UI Transition”(k步UI转换)任务,这是一种“self-supervised inverse dynamics task”(自我监督的逆动力学任务)。 * 该任务通过给VLM提供一对GUI截图(当前状态 $S_t$ 和经过 k 步动作后的未来状态 $S_{t+k}$),要求模型推断导致从 $S_t$ 到 $S_{t+1}$ 的初始动作。 * 这个任务的优势在于: * 它使VLM能够“ignore variations unrelated to user actions”(忽略与用户动作无关的变化),如背景刷新或广告,并专注于按钮和输入字段等真正的“affordances”(可操作项)。 * 训练数据可以从现有GUI轨迹中轻松获取,“without requiring human annotation”(无需人工标注),并且可以通过自动化离线探索轻松扩展。 * 引用: "In this study, we aim to leverage the abundance of unlabeled GUI trajectories... To unlock the potential of such data, we propose a self-supervised training task for GUI agents, named k-step UI Transition." * 引用: "This training task offers two advantages: (1) It enables VLMs to ignore variations unrelated to user actions... and to focus on true affordances... (2) The training data can be easily obtained from existing GUI trajectories without requiring human annotation..." 1. 训练方法:采用GRPO而非SFT。 * UIShift 采用“Group Relative Policy Optimization (GRPO)”代替传统的SFT。 * GRPO是一种资源高效的强化学习算法,它使用规则奖励函数而不是单独的批评模型来计算组内相对优势。 * 这使得模型可以对多个 plausible actions(合理动作)进行采样和排序,提供比SFT单标签更丰富的反馈,从而“naturally encourages exploration”(自然地鼓励探索)。 * 引用: "To exploit UI Transition, we adopt Group Relative Policy Optimization (GRPO) [23] instead of SFT." * 引用: "GRPO fits the UI Transition task because it enables the model to first propose a variaty of plausible actions and then rank them, providing richer feedback than one-shot labels in SFT." 1. 奖励设计:基于格式和准确性。 * UIShift 使用一个规则奖励函数 R,包含格式奖励 $R_f$ 和准确性奖励 $R_a$。 * $R_f$ 确保模型输出遵循预期的结构(例如 JSON 格式)。 * $R_a$ 根据预测动作类型和参数是否与真实值匹配来评估准确性,对于点击动作,采用空间容错策略(预测坐标落在目标UI元素的边界框内即视为正确)。 1. 实验结果:UIShift表现优异,超越标注依赖基线。 * UIShift 模型在仅使用 1K/2K UI 转换样本训练的情况下,在 GUI 接地(ScreenSpot、ScreenSpot-V2、ScreenSpot-Pro)和任务自动化(AndroidControl-Low/High)基准测试中取得了具有竞争力甚至更优的性能。 * 引用: "UIShift, trained solely on self-supervised UI Transition data, consistently outperforms annotation-dependent baselines across both grounding and task automation benchmarks." * UIShift-7B-2K 模型在 ScreenSpot 上的平均准确率达到 87.81%,在 ScreenSpot-V2 上达到 90.3%,与使用 50B tokens 训练的 UI-TARS-7B 表现相当。 * 在 AndroidControl 任务自动化基准测试中,UIShift-7B-2K 也在不同难度级别上取得了显著提升。 1. 推理的必要性:研究表明推理并非必需。 * 研究通过比较不同推理配置(训练/推理时是否使用推理提示)发现,在GUI相关任务中,“Reasoning is not necessary”(推理并非必需)。 * 在完全推理自由的配置下(训练和推理均不使用推理提示),模型的表现与使用推理的配置相当甚至更好。 * 推理自由的训练效率更高,显著缩短了训练时间。 * 引用: "Reasoning is not necessary for GUI-related tasks." * 引用: "We observe that models trained and evaluated without reasoning prompts perform comparably to, or even better than, those trained with reasoning." 1. k值的影响:k值越大有助于长程规划,但k=1最均衡。 * k步UI转换任务中的 k 值(当前状态到未来状态的步数)会影响模型性能。 * k=4 在 AndroidControl-High(需要长程规划的任务)上取得了最高准确率。 * k=1 在所有接地基准测试中表现更稳定。 * 增加 k=1 时的数据量(从 1K 到 2K)可以持续提升性能。 * 研究表明,k 的选择应与目标任务的粒度和结构对齐。 1. UIShift的优势:无需额外标注,利用未标记数据,可扩展。 * UIShift 的主要优势在于它消除了对昂贵的人工标注数据的依赖,能够利用大量未标记的GUI转换数据集。 * 这为训练GUI代理提供了有效且可扩展的替代方案。 * 引用: "These results highlight that UI Transition delivers strong performance without extra annotation, making it an effective and scalable alternative for training GUI-specific models." 局限性: * 受计算资源的限制,研究仅在 1K/2K 样本上进行了训练,未来的工作需要探索在大规模数据集上的性能扩展。 * 目前的评估仅限于静态基准测试,未来的工作需要扩展到动态基准测试,例如 AndroidWorld。 结论: UIShift 提供了一种创新的自我监督训练方法,通过利用未标记的UI转换数据和GRPO,显著提升了VLM在GUI代理任务上的能力。该框架不仅降低了数据收集成本,而且在各种GUI接地和任务自动化基准测试中展现出强大的泛化能力。研究还发现推理在这些静态GUI任务中并非关键因素。这些发现为未来利用大规模、未标记数据增强VLM在GUI代理领域的性能提供了新的方向。 原文:[2505.12493] UIShift: Enhancing VLM-based GUI Agents through Self-supervised Reinforcement Learning