本研究深入分析了GUI(图形用户界面)Agents中R1-Zero类训练范式的关键挑战,并提出了针对性的解决方案,以提升视觉定位(grounding)任务的性能。
核心思想/发现:
- 对R1-Zero类训练范式的关键组件进行分解和分析: 作者将R1-Zero类训练管线分解为三个核心组件:输入设计(模板)、输出评估(奖励函数)和策略更新(RL目标)。
- 输入设计(模板): 现有的模板鼓励模型生成链式思考(chain-of-thought reasoning),但这对于GUI定位任务来说适得其反。
- 关键发现: "Longer thinking leads to worse grounding performance." 延长思考链不仅不是必须的,反而会损害GUI定位的准确性,尤其是在目标为文本元素时。
- 关键发现: 定位任务更多依赖于图像tokens的适当缩放,而非文本思考的增加。 "Grounding benefits from appropriately scaled image tokens rather than from scaled text thinking."
- 输出评估(奖励函数): 基于命中信号(Hit-based)或框面积(IoU-based)的奖励函数会导致模型利用框大小进行奖励黑客攻击(reward hacking)。
- 关键发现: "Individually optimizing RHit and RIoU leads to conflicting reward hacking behaviors." 单独优化Hit奖励会鼓励更小、更准确的框,但降低IoU;单独优化IoU奖励则倾向于更大、重叠度更高的框,但降低准确性。这两种奖励捕获了互补但相互冲突的方面。
- 关键发现: GRPO(一种RL算法)的样本选择偏向不同的框大小,导致了奖励黑客攻击。训练中使用RHit倾向于预测小于真实值的框,而使用RIoU则倾向于预测大于真实值的框。
- 策略更新(RL目标 - GRPO算法): 原始的GRPO目标存在长度偏差(length bias)和难度偏差(difficulty bias)。
- 关键发现: "Response-level length bias: longer responses are preferred among incorrect ones, while shorter responses are favored among correct ones." GRPO倾向于让不正确的回答更长,正确的回答更短。这对定位任务尤其有害,因为长输出会降低准确性。
- 关键发现: "Question-level difficulty bias: assigning higher weights to harder samples during policy updates is desirable." GRPO的标准化处理可能导致模型过度关注简单样本。在本研究中,目标相对框大小可以作为任务难度的代理。
- 提出针对上述问题的三项改进措施:
- 快速思考模板(Fast Thinking Template): 采用不包含中间思考的模板,鼓励模型直接生成答案,减少训练过程中的冗余思考。
- 框大小约束的奖励函数(Box size–based reward): 在结合RHit和RIoU的基础上引入RBox奖励,通过正则化预测框的大小来缓解奖励黑客攻击问题。RBox单独使用会失效,需要与RHit和RIoU结合使用。
- 改进的GRPO目标:移除原始GRPO目标中的长度归一化项(即用常数Max_Tokens替换|oi|)。
- 引入难度系数(difficulty coefficient)加权GRPO目标,使得模型在更困难的样本上获得更大的梯度,从而更好地学习。难度系数根据相对框大小计算,相对框越小,难度越大,权重越高。
- 提出的GUI-G1-3B模型在GUI定位基准上取得当前最优(State-of-the-Art)性能:
- GUI-G1-3B基于Qwen2.5-VL-3B-Instruct,仅使用少量(约17K)公共数据集(UI-BERT和OS-Atlas)中的定位样本进行训练。
- 在ScreenSpot数据集上达到90.3%的准确率,在更具挑战性的ScreenSpot-Pro数据集上达到37.1%的准确率。
- 性能超越了同等规模及更大的现有模型(包括UI-TARS-7B),且需要的训练数据更少、输出tokens更少、训练阶段也更少。
支持引用的关键句子:
- "Longer thinking leads to worse grounding performance." (Sec. 3.1)
- "Grounding benefits from appropriately scaled image tokens rather than from scaled text thinking." (Sec. 3.1)
- "Individually optimizing RHit and RIoU leads to conflicting reward hacking behaviors." (Sec. 3.2)
- "Response-level length bias [25]: longer responses are preferred among incorrect ones, while shorter responses are favored among correct ones." (Sec. 3.3)
- "Question-level difficulty bias: assigning higher weights to harder samples during policy updates is desirable." (Sec. 3.3)
- "Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro." (Abstract and Sec. 1)
- "This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding." (Abstract)
- "Trained on only 17K fully open-source grounding samples, our GUI-G1-3B achieves state-of-the-art performance while using fewer tokens when testing." (Sec. 1)
结论:
本研究对现有R1-Zero类训练范式在GUI定位任务中的应用进行了深入剖析,揭示了输入模板、奖励函数和RL目标中的具体挑战。通过提出快速思考模板、含框大小约束的奖励以及改进的GRPO目标,成功解决了这些问题。实验证明,这些改进措施使得模型在少量数据上也能取得显著的性能提升,并在GUI定位基准上树立了新的标杆,同时也提高了模型的效率。研究强调了针对具体任务调整RL训练范式的重要性。
未来工作和局限性:
- 研究目前仅聚焦于定位任务,未来可扩展到动作预测和长程规划等更复杂的GUI交互任务。
- RL分析主要集中在GRPO,其他训练因素(如数据集构成、模型设计、超参数)未完全探索。
- 训练数据量相对有限,更大规模和多样化的数据集有望进一步提升性能上限。
相关工作:
论文简要回顾了GUI Agents中的定位研究以及MLLMs的R1-Zero类训练,并指出本工作与现有方法的区别在于,本工作探讨了如何在最小数据量和R1-Zero类训练方法下激活MLLM的GUI定位能力,并针对性地改进了训练范式。
总而言之, 这篇论文深入分析了当前基于RL(特别是R1-Zero类)训练GUI Agents进行视觉定位时存在的问题,包括不必要的长思考链、奖励函数的奖励黑客攻击以及GRPO的长度和难度偏差。作者提出了创新性的解决方案,并在有限的数据上训练出了性能领先、效率更高的GUI-G1模型,为GUI Agents的定位能力发展提供了重要指导。
原文:[2505.15810] GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

