核心概念和目标:
- GUI Agents (GUI 代理): 能够通过视觉界面(如手机或电脑屏幕)与计算设备交互,自动化任务的AI系统。
- MLLMs (多模态大型语言模型): 结合了文本和视觉等多种模态数据处理能力的大型语言模型。
- Reactive Actors (反应式行动者): 主要依赖即时感知进行行动,缺乏深入的规划和错误恢复能力。
- Deliberative Reasoners (审慎推理者): 能够在感知和行动之间明确纳入推理过程,进行规划、任务分解、理解空间关系并反思纠正错误。
- 论文目标: 提出 InfiGUI-R1 代理和 Actor2Reasoner 框架,旨在将 MLLM-based GUI 代理从反应式行动者提升为审慎推理者。
Actor2Reasoner 框架:
该框架是一个以推理为中心的渐进式训练方法,分为两个阶段:
- 第一阶段: Reasoning Injection (推理注入)
- 目标: 实现从 Reactive Actor 到 Basic Reasoner (感知 → 推理 → 行动) 的基础转变。
- 核心方法: Spatial Reasoning Distillation (空间推理蒸馏)。
- 利用强大的教师模型生成包含明确空间推理步骤的高质量推理轨迹。
- 通过 Supervised Fine-Tuning (SFT) 训练基础 MLLM,使其学习这些中间推理步骤。
- Pinpointing Reasoning Bottleneck Samples (识别推理瓶颈样本): 识别基础模型在没有额外子目标信息时失败但在提供子目标信息时成功的步骤,这些是需要注入推理的理想样本。
- Generating Spatial Reasoning Trajectories (生成空间推理轨迹): 从 GUI 截图的 Accessibility Tree 中提取和压缩空间信息,然后用强大的教师模型(如 QwQ-32B)生成包含详细空间描述和逻辑推理步骤的文本。
- Injecting Reasoning via SFT (通过 SFT 注入推理): 使用教师模型生成的推理-行动对微调基础 MLLM,使其学习 感知 → 推理 → 行动 模式。
- 第二阶段: Deliberation Enhancement (审慎增强)
- 目标: 在基础 Reasoner 的基础上,通过 Reinforcement Learning (RL) 将其完善为 Deliberative Reasoner,增强规划和反思能力。
- 核心方法: 使用规则 기반 的奖励进行 RL 训练。
- REINFORCE Leave-One-Out (RLOO): 一种 RL 算法,通过使用同批次其他样本的平均奖励作为基线来减少策略梯度估计的方差,无需单独的价值或批评模型。
- Reward Function (奖励函数): 结合输出格式正确性 (Rformat) 和任务执行准确性 (Racc) 进行评估。Racc 根据任务类型进一步细化(例如,Agent Trajectory Task Reward, Grounding Task Rewards)。
- System Prompt (系统提示): 明确指导模型先进行内部推理过程,再提供最终行动。
- 关键创新:Sub-goal Guidance (子目标引导): 增强前瞻性规划和任务分解能力。
- 通过一个轻量级 LLM 评估代理推理输出中隐含的子目标质量。
- 根据提取的子目标与地面真实子目标的匹配程度给予奖励 (Rsubgoal)。
- 将 Rsubgoal 整合到 Agent Trajectory Task Reward 中,在行动参数不正确时,针对规划质量提供反馈。
- Error Recovery Scenario Construction (错误恢复场景构建): 培养反思性自我纠正和鲁棒性。
- Identify Prone-to-error Steps (识别易出错步骤): 识别基础模型在特定步骤表现不稳定的情况。
- Constructing Recovery Scenarios (构建恢复场景):Error Escape Scenario (错误逃脱场景): 模拟代理执行错误行动后的状态,训练代理识别错误并执行逃脱行动(如返回)。
- Back on Track Scenario (回到正轨场景): 模拟代理从错误中恢复后的状态,训练代理在恢复后重新评估情况并执行正确的后续行动。
- 将这些场景样本纳入 RL 训练数据,通过奖励成功逃脱和正确后续行动来强化代理的适应性策略。
InfiGUI-R1-3B 代理:
- 基于 Qwen2.5-VL-3B-Instruct 模型,并使用 Actor2Reasoner 框架进行训练。
- 在多种数据集上进行训练,包括 AndroidControl (轨迹数据), GUI Grounding (元素定位数据), MathV360K (通用推理数据), COCO (通用视觉理解数据)。
实验评估:
- Benchmarks (基准):ScreenSpot & ScreenSpot-Pro: 评估 GUI 理解和元素定位准确性,跨平台 (Mobile, Desktop, Web),ScreenSpot-Pro 更侧重复杂桌面应用和高分辨率屏幕。
- AndroidControl: 评估在现实 Android 环境中执行复杂、多步任务的能力,测试规划和状态跟踪。包括 Low-level (低难度) 和 High-level (高难度) 划分。
- Results (结果):在 ScreenSpot 上取得了最先进的整体性能,在跨平台和文本/图标定位任务上表现出色。
- 在 ScreenSpot-Pro 上表现出色,与更大参数的模型相当,尤其在 CAD, Office, OS 等专业软件环境中表现强劲。
- 在 AndroidControl 上取得了高成功率,超过了具有相似参数的现有最先进模型以及更大的 GUI 特有模型,证明了其规划能力的有效性。
- RL 训练期间奖励曲线呈上升趋势,表明代理在所有 GUI 任务中有效学习并提高了性能。
贡献:
- 提出了 Actor2Reasoner 框架,一个系统性地将 MLLM-based GUI 代理从 Reaction Actors 转化为 Deliberative Reasoners 的两阶段训练方法。
- 引入了框架内的三个关键技术创新:Spatial Reasoning Distillation (建立基础跨模态推理), Sub-goal Guidance (增强规划推理), Error Recovery Scenario Construction (培养反思性错误纠正能力)。
- 开发了 InfiGUI-R1-3B 代理,并通过全面的实验证明了其在轨迹任务和元素定位方面的有效性,在相似参数的模型中达到最先进水平。

