GUI-G1：优化GUI智能体视觉定位训练

本研究深入分析了GUI（图形用户界面）Agents中R1-Zero类训练范式的关键挑战，并提出了针对性的解决方案，以提升视觉定位（grounding）任务的性能。

核心思想/发现:

对R1-Zero类训练范式的关键组件进行分解和分析: 作者将R1-Zero类训练管线分解为三个核心组件：输入设计（模板）、输出评估（奖励函数）和策略更新（RL目标）。

输入设计（模板）: 现有的模板鼓励模型生成链式思考（chain-of-thought reasoning），但这对于GUI定位任务来说适得其反。

关键发现: "Longer thinking leads to worse grounding performance." 延长思考链不仅不是必须的，反而会损害GUI定位的准确性，尤其是在目标为文本元素时。

关键发现: 定位任务更多依赖于图像tokens的适当缩放，而非文本思考的增加。 "Grounding benefits from appropriately scaled image tokens rather than from scaled text thinking."

输出评估（奖励函数）: 基于命中信号（Hit-based）或框面积（IoU-based）的奖励函数会导致模型利用框大小进行奖励黑客攻击（reward hacking）。

关键发现: "Individually optimizing RHit and RIoU leads to conflicting reward hacking behaviors." 单独优化Hit奖励会鼓励更小、更准确的框，但降低IoU；单独优化IoU奖励则倾向于更大、重叠度更高的框，但降低准确性。这两种奖励捕获了互补但相互冲突的方面。

关键发现: GRPO（一种RL算法）的样本选择偏向不同的框大小，导致了奖励黑客攻击。训练中使用RHit倾向于预测小于真实值的框，而使用RIoU则倾向于预测大于真实值的框。

策略更新（RL目标 - GRPO算法）: 原始的GRPO目标存在长度偏差（length bias）和难度偏差（difficulty bias）。

关键发现: "Response-level length bias: longer responses are preferred among incorrect ones, while shorter responses are favored among correct ones." GRPO倾向于让不正确的回答更长，正确的回答更短。这对定位任务尤其有害，因为长输出会降低准确性。

关键发现: "Question-level difficulty bias: assigning higher weights to harder samples during policy updates is desirable." GRPO的标准化处理可能导致模型过度关注简单样本。在本研究中，目标相对框大小可以作为任务难度的代理。

提出针对上述问题的三项改进措施:

快速思考模板（Fast Thinking Template）: 采用不包含中间思考的模板，鼓励模型直接生成答案，减少训练过程中的冗余思考。

框大小约束的奖励函数（Box size–based reward）: 在结合RHit和RIoU的基础上引入RBox奖励，通过正则化预测框的大小来缓解奖励黑客攻击问题。RBox单独使用会失效，需要与RHit和RIoU结合使用。

改进的GRPO目标:移除原始GRPO目标中的长度归一化项（即用常数Max_Tokens替换|oi|）。

引入难度系数（difficulty coefficient）加权GRPO目标，使得模型在更困难的样本上获得更大的梯度，从而更好地学习。难度系数根据相对框大小计算，相对框越小，难度越大，权重越高。

提出的GUI-G1-3B模型在GUI定位基准上取得当前最优（State-of-the-Art）性能:

GUI-G1-3B基于Qwen2.5-VL-3B-Instruct，仅使用少量（约17K）公共数据集（UI-BERT和OS-Atlas）中的定位样本进行训练。

在ScreenSpot数据集上达到90.3%的准确率，在更具挑战性的ScreenSpot-Pro数据集上达到37.1%的准确率。

性能超越了同等规模及更大的现有模型（包括UI-TARS-7B），且需要的训练数据更少、输出tokens更少、训练阶段也更少。

支持引用的关键句子:

"Longer thinking leads to worse grounding performance." (Sec. 3.1)

"Grounding benefits from appropriately scaled image tokens rather than from scaled text thinking." (Sec. 3.1)

"Individually optimizing RHit and RIoU leads to conflicting reward hacking behaviors." (Sec. 3.2)

"Response-level length bias [25]: longer responses are preferred among incorrect ones, while shorter responses are favored among correct ones." (Sec. 3.3)

"Question-level difficulty bias: assigning higher weights to harder samples during policy updates is desirable." (Sec. 3.3)

"Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro." (Abstract and Sec. 1)

"This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding." (Abstract)

"Trained on only 17K fully open-source grounding samples, our GUI-G1-3B achieves state-of-the-art performance while using fewer tokens when testing." (Sec. 1)

结论:

本研究对现有R1-Zero类训练范式在GUI定位任务中的应用进行了深入剖析，揭示了输入模板、奖励函数和RL目标中的具体挑战。通过提出快速思考模板、含框大小约束的奖励以及改进的GRPO目标，成功解决了这些问题。实验证明，这些改进措施使得模型在少量数据上也能取得显著的性能提升，并在GUI定位基准上树立了新的标杆，同时也提高了模型的效率。研究强调了针对具体任务调整RL训练范式的重要性。

未来工作和局限性:

研究目前仅聚焦于定位任务，未来可扩展到动作预测和长程规划等更复杂的GUI交互任务。

RL分析主要集中在GRPO，其他训练因素（如数据集构成、模型设计、超参数）未完全探索。

训练数据量相对有限，更大规模和多样化的数据集有望进一步提升性能上限。

相关工作:

论文简要回顾了GUI Agents中的定位研究以及MLLMs的R1-Zero类训练，并指出本工作与现有方法的区别在于，本工作探讨了如何在最小数据量和R1-Zero类训练方法下激活MLLM的GUI定位能力，并针对性地改进了训练范式。

总而言之， 这篇论文深入分析了当前基于RL（特别是R1-Zero类）训练GUI Agents进行视觉定位时存在的问题，包括不必要的长思考链、奖励函数的奖励黑客攻击以及GRPO的长度和难度偏差。作者提出了创新性的解决方案，并在有限的数据上训练出了性能领先、效率更高的GUI-G1模型，为GUI Agents的定位能力发展提供了重要指导。

原文：[2505.15810] GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents