GUI Agents（智能体）技术综述

文字版链接：www.breezedeus.com

概述：

GUI Agents 技术是利用大型语言模型（LLM）和视觉语言模型（VLM）实现智能体对计算机或手机图形用户界面（GUI）的自动化操作，旨在模拟人类用户行为完成指定任务。这涵盖了多种应用场景，包括 Web GUI 和 Mobile GUI 的自动化操作。其核心是一个 Partially Observable Markov Decision Process (POMDP) 问题，智能体需要根据有限的可观测状态（如 UI 截图和 XML）做出决策并生成操作指令（如 CLICK(x, y)）。

主要挑战：

尽管前景广阔，GUI Agents 面临着多重挑战：

序列决策与延迟收益： 智能体的操作收益具有延迟性，难以实时评估当前操作的有效性。

UI 界面频繁更新： 网站和应用的频繁更新导致在线观测结果与离线数据不一致。

不可预测的干扰： 弹窗广告、登录请求、搜索结果随机顺序等干扰项影响智能体正常操作。

技术层面的不稳定： 网页加载不完整或临时访问受限等问题。

核心技术路线：

实现 GUI Agents 主要涉及 感知（Perception） 和 规划/决策（Planning/Decision） 两个关键环节，技术路线多样：

基于 Closed LLM (Training-free)：

原理： 利用感知技术将 UI 状态转换为文本描述，然后使用 LLM 进行推理和决策。

代表性工作： AutoDroid (清华), AWM (CMU & MIT)。

优化方向： Memory Construction & Usage, Prompt Engineering, Trajectory Planning。

AWM 示例： 从已有路径中提取抽象子路径（workflow），通过向量检索加入 prompt 以增强决策。

特点： 算力和数据需求低，但效果优化难度较大，推理耗时一般，隐私安全低，风险较高。

VLM - driven UI Agents：

原理： 基于 VLM 实现 Policy Model，同时完成感知、规划和决策。

VLM 要求： 具备 UI 任务执行和推理能力，全局理解能力（OCR, UI 界面理解）和局部细节理解能力（元素定位，指称）。

Perception + Closed VLM：SoM (Set-of-Mark Prompting)： 利用检测模型对图像分区加标记，辅助 VLM 推理和定位（如 GPT-4V）。

代表性工作： MM-Navigator (Microsoft), AppAgent (Tencent), Mobile-Agent-v2 (Alibaba), OmniParser (Microsoft)。

OmniParser 示例： 融合多种感知模块结果输入 GPT-4V 生成结构化 UI 表示。

Open VLM (Training-based)：原理： 通过训练数据精调 VLM。

针对 GUI 任务设计特有 VLM 结构：CogAgent (Zhipu)： 新增小型高分辨率图像编码器，支持超高分辨率输入，增强 GUI 相关问答和 OCR。

Ferret-UI (Apple)： 使用 specific anyRes 方法处理不同纵横比图片，执行精确指称和定位，训练数据包含多种任务。

使用 GUI 任务数据精调通用 VLM：SeeClick (Shanghai AI Lab)： 两阶段训练，预训练增强 grounding 能力，微调阶段预测下一步操作。

MobileVLM (XiaoMi)： 基于 Qwen - VL - 9B，构建 Mobile3M 数据集，通过三阶段训练提升端到端任务完成能力。

特点： 效果相对较好或上限高，对 VLM 有独特要求，算力数据需求中高，隐私安全高，风险中等。

Pipeline: Planning + Precise Grounding：

原理： 将规划和精确定位分离。VLM 负责规划生成动作文本描述，其他模型负责精确定位动作参数。

代表性工作： ClickAgent (Samsung), LiMAC (Huawei), AutoGLM (Zhipu)。

ClickAgent 示例： InternVL2.0-76B 规划反思，TinyClick 精确定位点击坐标。

AutoGLM 示例： 基于“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”，将任务规划与动作执行解耦。

特点： 结合不同模型的优势，可以实现更精确的操作。

高级优化技术：

为了提升性能，研究人员探索了多种高级优化技术：

增强 Memory/Knowledge： 更好地利用历史经验和知识。

使用更好的 Base VLM： 提升基础 VLM 的定位、指称和 OCR 能力。

获取更多更好的数据： 利用 MCTS 等搜索方法探索和利用数据。

改进训练方法： 确定训练任务和顺序，采用 RL (DPO) 提升推理和规划。

优化推理方法： 使用 CoT, ReAct, 多智能体协作, 树搜索等。

代表性工作：Agent Q (MultiOn & Stanford)： 利用 MCTS + Step-DPO + PlanReAct 训练模型，MCTS 自动探索数据，Step-DPO 精调提升推理规划。

Inference-time Tree Search (CMU)： 推理时采用 best-first 树搜索，基于 Policy 函数选择最优动作，Value 函数评估状态期望收益。

Mobile-Agent-v2 (Alibaba)： 引入多智能体（规划、决策、反思）和记忆单元协同工作，通过反思智能体判断操作是否符合预期。

评测方法：

GUI Agents 的性能评测主要采用人工评测和自动评测，并有专门的测试平台：

评测方式： 人工评测（精度高，耗时成本高），自动评测（速度快，成本低，精度相对不高）。

评测指标：Step-wise： 动作准确率 (Act.Acc) 等。

Episode-wise/Trajectory-wise： 任务成功率，任务完成效率。

Path-wise： 路径匹配度，路径节点最高收益值，Essential States。

Testbed for Task Automation： 专门的测试环境。

技术回顾与总结：

不同技术路线各有优劣，选择需权衡效果上限、训练资源和风险等因素：

技术路线效果算力需求数据需求优化难度推理耗时隐私安全风险Closed LLM一般很低很低难一般低较高Closed VLM较好较低低较难慢低一般新架构 VLM上限高极高极高有点难一般高较高通用 VLM 微调较好一般一般一般一般高一般未来展望：

GUI Agents 技术的未来发展主要聚焦于：

增强 UI 界面理解能力： 提升 UI 相关问答能力。

优化 UI 任务规划和执行能力： 改进规划和推理算法，提高任务成功率和效率。

技术发展方向：Memory/Knowledge Enhanced。

Better Base VLM (元素定位，指称，细粒度 OCR)。

More and Better Data。

Better Training Methods (RL/DPO)。

Better Inferencing Methods (CoT, ReAct, 多智能体协作, 树搜索)。

随着技术的不断发展，GUI Agents 有望在智能客服、自动化测试、智能办公等领域广泛应用，推动人机交互和数字化进程。