ARPO：利用经验回放对 GUI Agent 进行端到端策略优化

这份文档介绍了一种名为 Agentic Replay Policy Optimization (ARPO) 的新型强化学习方法，旨在提高大型语言模型 (LLM) 作为图形用户界面 (GUI) Agent 在处理复杂、长周期计算机任务时的性能。该研究解决了在动态、多模态 GUI 环境中训练 LLM Agent 的挑战，特别是稀疏和延迟的奖励信号以及高昂的 Rollout 成本。

核心概念和方法：

端到端 GUI Agent： 该研究构建了一个基于视觉语言模型 (VLM) 的 GUI Agent，能够处理长时间序列的视觉观察（屏幕截图）和交互历史，生成顺序动作（鼠标和键盘输入），并从稀疏、延迟的奖励中接收策略梯度。如图 1a 所示，Agent 接收来自多个屏幕的屏幕截图观察，通过端到端 GUI Agent 模型处理，然后输出鼠标和键盘动作。

基于强化学习的策略优化： 与传统的基于监督微调 (SFT) 的方法不同，该研究采用强化学习来训练 Agent。他们使用了 Group Relative Policy Optimization (GRPO)，这是一种不需要价值函数的 PPO 变体，通过组内奖励归一化来估计 token 级别的优势。GRPO 特别适合处理长序列和多模态数据，提高了效率。

Agentic Replay Policy Optimization (ARPO)： ARPO 是该研究提出的核心方法，它在 GRPO 的基础上增加了经验回放缓冲区。这个缓冲区存储成功的轨迹，并在训练迭代中重复使用它们，以应对稀疏奖励环境中的样本效率问题。当一个训练组中所有 Rollout 都失败（奖励为零）时，会随机用缓冲区中该任务对应的成功轨迹替换其中一个，以确保奖励方差并计算有效的 token 级别优势（如图 2 所示）。

价值任务选择策略： 为了提高训练稳定性，该研究引入了一种任务选择策略。他们根据 Agent 在基线模型下的表现过滤任务，只选择那些能够产生成功 Rollout 的任务进行 GRPO 训练。这有助于Agent在早期训练阶段专注于从信息丰富的交互中学习。

分布式轨迹 Rollout 系统： 为了应对在真实桌面环境中 Rollout 成本高昂和延迟的问题，该研究开发了一个可扩展的分布式 Rollout 系统，实现与真实桌面环境（如 OSWorld）的并行交互。通过批处理推理，提高了 GPU 利用率，并加快了数据收集过程（如图 7 所示）。

奖励设计： 奖励函数包含任务级别的成功奖励（任务完成为 1，否则为 0）和动作格式正确性奖励（解析失败的动作给予 -1 的惩罚）。这提供了指导策略优化的信号。

链式思考 (CoT) 集成： Agent 的动作生成过程融入了链式思考技术，将动作分解为思考部分和解决方案部分，以增强推理能力并使决策更具可解释性。

实验结果和发现：

性能提升： 在 OSWorld 基准测试上，ARPO 显著提高了 Agent 的任务成功率。与原始的 UI-Tars-1.5 模型相比，ARPO 将标准 OSWorld 设置下的成功率提高了 6.4%，将更严格的 OSWorld Hard 设置下的成功率提高了 5.6%（见表 1）。

经验回放的有效性： 消融实验表明，经验回放缓冲区显著提高了训练稳定性和样本效率，平均轨迹奖励更高，特别是在领域内任务上，成功率从 68.8% 提高到 81.25%（见图 3 和图 4）。

任务选择的重要性： 训练在精选任务子集上的 GRPO 表现出更高的平均轨迹奖励和更大的组内奖励方差，这对于 GRPO 的稳定优化至关重要（见图 5）。

泛化能力： 强化学习训练在领域内任务上带来了显著提升，但在领域外任务上的泛化能力相对有限。ARPO 在领域外任务上的表现略优于基线模型和纯 GRPO 训练，表明结构化的轨迹分组和回放缓解了过拟合（见图 4）。

与离线偏好优化的比较： ARPO 和 GRPO 在 OSWorld 上的表现显著优于拒绝采样、DPO 和 KTO 等离线偏好优化方法，表明直接轨迹级优化提供了更强的学习信号（见图 6）。

Rollout 效率： 增加并行环境数量可以显著提高 Rollout 效率，减少了每个 Epoch 的总 Rollout 时间（见图 7）。

自我纠正行为： 定性分析显示，经过 ARPO 训练的 Agent 表现出自适应和自我纠正行为，能够识别并纠正错误（如图 8 所示）。

引文：

“我们提出了 Agentic Replay Policy Optimization (ARPO)，这是一种端到端强化学习方法，它通过经验回放增强了 Group Relative Policy Optimization (GRPO)，以重用训练迭代中的成功经验。”

“我们在 OSWorld 基准测试上进行了广泛的评估，观察到强化学习有效地提高了 Agent 的性能。”

“我们发现在 GUI 环境中，策略优化方法的优势在于能够直接从稀疏、延迟的奖励中学习，这在离线方法中很难捕捉到。”

“我们的发现强调了强化学习在训练多轮、视觉语言 GUI Agent，使其能够管理复杂的真实世界 UI 交互方面的有效性。”

“经验回放缓冲区的引入保留了成功的轨迹，增强了样本效率，并在稀疏奖励设置中稳定了训练。”

“精心选择训练任务对于保持奖励多样性和确保稳定的策略优化至关重要。”

结论：

该研究成功地将强化学习应用于 GUI Agent 的训练，通过 ARPO 方法有效地解决了稀疏奖励、延迟反馈和高昂 Rollout 成本等挑战。ARPO 结合了 GRPO 的优势、经验回放和价值任务选择策略，显著提高了 GUI Agent 在复杂任务上的性能。该研究强调了结合多模态理解和强化学习在实现更具适应性和能力的 GUI Agent 方面的潜力。未来的工作可以探索扩大任务集、延长 Agent 的上下文长度以及使用学习奖励模型来减少对手动奖励函数的依赖。

原文：[2505.16282] ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay