GUI Agents(智能体)技术综述AI Agents 技术播客

GUI Agents(智能体)技术综述

13分钟 ·
播放数120
·
评论数1

概述:

GUI Agents 技术是利用大型语言模型(LLM)和视觉语言模型(VLM)实现智能体对计算机或手机图形用户界面(GUI)的自动化操作,旨在模拟人类用户行为完成指定任务。这涵盖了多种应用场景,包括 Web GUI 和 Mobile GUI 的自动化操作。其核心是一个 Partially Observable Markov Decision Process (POMDP) 问题,智能体需要根据有限的可观测状态(如 UI 截图和 XML)做出决策并生成操作指令(如 CLICK(x, y))。

主要挑战:

尽管前景广阔,GUI Agents 面临着多重挑战:

  • 序列决策与延迟收益: 智能体的操作收益具有延迟性,难以实时评估当前操作的有效性。
  • UI 界面频繁更新: 网站和应用的频繁更新导致在线观测结果与离线数据不一致。
  • 不可预测的干扰: 弹窗广告、登录请求、搜索结果随机顺序等干扰项影响智能体正常操作。
  • 技术层面的不稳定: 网页加载不完整或临时访问受限等问题。

核心技术路线:

实现 GUI Agents 主要涉及 感知(Perception)规划/决策(Planning/Decision) 两个关键环节,技术路线多样:

  1. 基于 Closed LLM (Training-free):
  • 原理: 利用感知技术将 UI 状态转换为文本描述,然后使用 LLM 进行推理和决策。
  • 代表性工作: AutoDroid (清华), AWM (CMU & MIT)。
  • 优化方向: Memory Construction & Usage, Prompt Engineering, Trajectory Planning。
  • AWM 示例: 从已有路径中提取抽象子路径(workflow),通过向量检索加入 prompt 以增强决策。
  • 特点: 算力和数据需求低,但效果优化难度较大,推理耗时一般,隐私安全低,风险较高。
  1. VLM - driven UI Agents:
  • 原理: 基于 VLM 实现 Policy Model,同时完成感知、规划和决策。
  • VLM 要求: 具备 UI 任务执行和推理能力,全局理解能力(OCR, UI 界面理解)和局部细节理解能力(元素定位,指称)。
  • Perception + Closed VLM:SoM (Set-of-Mark Prompting): 利用检测模型对图像分区加标记,辅助 VLM 推理和定位(如 GPT-4V)。
  • 代表性工作: MM-Navigator (Microsoft), AppAgent (Tencent), Mobile-Agent-v2 (Alibaba), OmniParser (Microsoft)。
  • OmniParser 示例: 融合多种感知模块结果输入 GPT-4V 生成结构化 UI 表示。
  • Open VLM (Training-based):原理: 通过训练数据精调 VLM。
  • 针对 GUI 任务设计特有 VLM 结构:CogAgent (Zhipu): 新增小型高分辨率图像编码器,支持超高分辨率输入,增强 GUI 相关问答和 OCR。
  • Ferret-UI (Apple): 使用 specific anyRes 方法处理不同纵横比图片,执行精确指称和定位,训练数据包含多种任务。
  • 使用 GUI 任务数据精调通用 VLM:SeeClick (Shanghai AI Lab): 两阶段训练,预训练增强 grounding 能力,微调阶段预测下一步操作。
  • MobileVLM (XiaoMi): 基于 Qwen - VL - 9B,构建 Mobile3M 数据集,通过三阶段训练提升端到端任务完成能力。
  • 特点: 效果相对较好或上限高,对 VLM 有独特要求,算力数据需求中高,隐私安全高,风险中等。
  1. Pipeline: Planning + Precise Grounding:
  • 原理: 将规划和精确定位分离。VLM 负责规划生成动作文本描述,其他模型负责精确定位动作参数。
  • 代表性工作: ClickAgent (Samsung), LiMAC (Huawei), AutoGLM (Zhipu)。
  • ClickAgent 示例: InternVL2.0-76B 规划反思,TinyClick 精确定位点击坐标。
  • AutoGLM 示例: 基于“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,将任务规划与动作执行解耦。
  • 特点: 结合不同模型的优势,可以实现更精确的操作。

高级优化技术:

为了提升性能,研究人员探索了多种高级优化技术:

  • 增强 Memory/Knowledge: 更好地利用历史经验和知识。
  • 使用更好的 Base VLM: 提升基础 VLM 的定位、指称和 OCR 能力。
  • 获取更多更好的数据: 利用 MCTS 等搜索方法探索和利用数据。
  • 改进训练方法: 确定训练任务和顺序,采用 RL (DPO) 提升推理和规划。
  • 优化推理方法: 使用 CoT, ReAct, 多智能体协作, 树搜索等。
  • 代表性工作:Agent Q (MultiOn & Stanford): 利用 MCTS + Step-DPO + PlanReAct 训练模型,MCTS 自动探索数据,Step-DPO 精调提升推理规划。
  • Inference-time Tree Search (CMU): 推理时采用 best-first 树搜索,基于 Policy 函数选择最优动作,Value 函数评估状态期望收益。
  • Mobile-Agent-v2 (Alibaba): 引入多智能体(规划、决策、反思)和记忆单元协同工作,通过反思智能体判断操作是否符合预期。

评测方法:

GUI Agents 的性能评测主要采用人工评测和自动评测,并有专门的测试平台:

  • 评测方式: 人工评测(精度高,耗时成本高),自动评测(速度快,成本低,精度相对不高)。
  • 评测指标:Step-wise: 动作准确率 (Act.Acc) 等。
  • Episode-wise/Trajectory-wise: 任务成功率,任务完成效率。
  • Path-wise: 路径匹配度,路径节点最高收益值,Essential States。
  • Testbed for Task Automation: 专门的测试环境。

技术回顾与总结:

不同技术路线各有优劣,选择需权衡效果上限、训练资源和风险等因素:

技术路线效果算力需求数据需求优化难度推理耗时隐私安全风险Closed LLM一般很低很低难一般低较高Closed VLM较好较低低较难慢低一般新架构 VLM上限高极高极高有点难一般高较高通用 VLM 微调较好一般一般一般一般高一般未来展望:

GUI Agents 技术的未来发展主要聚焦于:

  • 增强 UI 界面理解能力: 提升 UI 相关问答能力。
  • 优化 UI 任务规划和执行能力: 改进规划和推理算法,提高任务成功率和效率。
  • 技术发展方向:Memory/Knowledge Enhanced。
  • Better Base VLM (元素定位,指称,细粒度 OCR)。
  • More and Better Data。
  • Better Training Methods (RL/DPO)。
  • Better Inferencing Methods (CoT, ReAct, 多智能体协作, 树搜索)。

随着技术的不断发展,GUI Agents 有望在智能客服、自动化测试、智能办公等领域广泛应用,推动人机交互和数字化进程。

展开Show Notes
好一个AI音频😂