GUI-Actor：无坐标GUI智能体视觉定位

1. 核心思想与主要贡献

核心挑战： 构建由VLM（视觉语言模型）驱动的GUI（图形用户界面）智能体时，视觉定位（Visual Grounding）是一个关键挑战。视觉定位是指根据视觉内容和文本指令，在屏幕上找到执行动作的适当区域。现有方法通常将其公式化为基于文本的坐标生成任务，但这存在多重局限性：

空间-语义对齐弱： 缺乏显式空间监督，模型难以将视觉输入与数值坐标直接关联。

监督目标模糊： 许多GUI动作（例如点击按钮）允许在有效区域内有多种有效位置，而单点预测会惩罚所有偏差，即使是合理的偏差。

视觉与动作空间粒度不匹配： 坐标是连续高分辨率的，但Vision Transformer等视觉模型提取的视觉特征是粗粒度的补丁级别，导致模型难以从粗糙的视觉特征推断出像素级别的精确动作，从而影响泛化能力。

GUI-Actor的创新方案： GUI-Actor提出了一种“无坐标”的GUI定位方法，旨在模仿人类与界面交互的方式——人类不是计算精确坐标，而是直接感知目标元素并与之交互。

注意力机制的动作头： GUI-Actor引入了一个专用的 token。这个token在联合处理视觉输入和自然语言指令后，通过一个注意力机制，与所有相关的视觉补丁token对齐，从而在单次前向传播中提出一个或多个动作区域。

多补丁监督： 摒弃单点监督，GUI-Actor训练时将所有与真实边界框部分或完全重叠的视觉补丁标记为正例，从而能够容忍空间模糊性并减少对合理动作变体的过度惩罚。

定位验证器（Grounding Verifier）： 为了进一步提高准确性，GUI-Actor还设计了一个轻量级的定位验证器。该验证器能够评估多个候选动作区域，并选择最合理的一个进行动作执行。这个验证器可以轻松集成到其他定位方法中以提升性能。

主要贡献总结：

重新审视了现有基于坐标生成的GUI视觉定位方法的局限性，并提出了GUI-Actor这一新颖的无坐标方法来有效解决这些问题。

设计了一个基于注意力的动作头，能够在单次前向传播中生成多个候选区域。

引入了定位验证器，用于从注意力图中提出的候选区域中选择最可能的动作区域，并证明其可以与其他定位方法结合使用以提升性能。

在多个GUI动作定位基准测试中，GUI-Actor展现出超越现有SOTA方法的性能，且对未见过的屏幕分辨率和布局表现出更强的泛化能力。

2. GUI-Actor的设计细节

传统的坐标生成方法将屏幕坐标作为文本token输出（如x=0.123, y=0.234）。GUI-Actor用三个特殊token , , 替换了坐标段，使用的最后一层隐藏状态作为上下文锚点，用于计算视觉补丁上的动作注意力。

注意力机制的动作头：首先，对VLM视觉编码器提取的视觉补丁特征应用自注意力层，使属于同一GUI元素的补丁共享连贯的表示。

然后，将 token的表示和上下文化的补丁特征分别投影到共享的嵌入空间。

最后，计算 token与每个视觉补丁之间的注意力分数，形成一个屏幕上的注意力图，指示最相关的动作区域。

空间感知多补丁监督： GUI-Actor利用边界框监督提供密集且空间结构化的学习信号。所有与真实边界框部分或完全重叠的图像补丁都被标记为正例，其余为负例。这种策略允许模型有效捕获可操作元素的完整空间范围，并处理固有的模糊性。

训练目标： 结合了下一token预测（NTP）损失和动作注意力损失。动作注意力损失通过KL散度计算，将预测的注意力分布与从二值掩码导出的归一化目标分布对齐。

3. 定位验证器（Grounding Verifier）

设计理念： “验证通常比生成更容易”。GUI-Actor的注意力机制可以自然地产生多个候选动作区域，验证器利用这一点来细化决策。

数据与训练： 验证器训练数据从OS-Atlas数据集构建，包括桌面、移动和Web领域的数据。

正例： 在真实边界框中心放置视觉标记（空心红色圆圈）。

负例： 1. 在同一图像中选择一个不正确的边界框中心。2. 随机采样目标区域之外的点。

训练目标是标准的交叉熵损失，模型输入（图像+标记点，指令），输出“True”或“False”标记。

推理： GUI-Actor首先生成包含 token的代理响应。然后，提取的隐藏状态，通过动作头计算所有视觉补丁的注意力。

验证器通过在图像上标记提议的位置来评分每个候选区域，并评估其与指令的一致性。选择分数定义为P_true / (P_true + P_false)。

候选区域按注意力权重降序评估，一旦找到超过置信阈值（如0.95或0.8）的区域，就立即返回。

4. 实验结果与分析

GUI-Actor在多个GUI视觉定位基准测试中表现出色：

性能提升： 在ScreenSpot-Pro、ScreenSpot和ScreenSpot-v2基准测试中，GUI-Actor（2B和7B模型）持续优于现有SOTA方法。例如，GUI-Actor-7B（基于Qwen2.5-VL）在ScreenSpot-Pro上达到44.6分，优于UI-TARS-72B的38.1分，而参数量和训练数据显著更少。

引用： “GUI-Actor-7B achieves scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones, outperforming UI-TARS-72B (38.1) on ScreenSpot-Pro, with significantly fewer parameters and training data.”

鲁棒的域外泛化能力： 在ScreenSpot-Pro（包含高分辨率界面和显著领域偏移）上的表现尤其突出，GUI-Actor-2B和GUI-Actor-7B分别超越SOTA模型UI-TARS +9.0和+5.0点。这归因于其显式的空间-语义对齐和对补丁级视觉特征的直接定位，避免了坐标生成方法的粒度不匹配问题。

更高的样本效率： GUI-Actor仅使用约60%的训练数据就能在ScreenSpot和ScreenSpot-v2上达到最终准确率，优于AGUVIS的坐标生成模型（在80-90%数据后才趋于平稳）。这表明其多补丁监督策略和显式空间-语义对齐提高了学习效率。

骨干VLM的通用性： 通过轻量级训练（GUI-Actor-LiteTrain，冻结骨干VLM，仅训练新引入的动作头和特殊token），GUI-Actor仍能显著提升骨干VLM的GUI定位能力，甚至与完全微调的坐标生成模型相媲美。这表明骨干VLM本身已具备强大的UI截图感知能力，而GUI-Actor能够有效地赋予其定位能力，同时不损害其通用能力。

引用： “GUI-Actor-LiteTrain retains the backbone’s original language and vision-language capabilities, demonstrating that lightweight integration can enable grounding without compromising generality.”

定位验证器提升性能： 实验结果一致表明，定位验证器能有效提升定位准确率，尤其是在ScreenSpot-Pro这种更具挑战性的基准上，GUI-Actor-7B的性能提升了近4点，GUI-Actor-7B-LiteTrain更是提升了13点。

多区域预测而无额外推理成本： GUI-Actor基于注意力的定位机制能够在单次前向传播中生成多个候选动作区域，无额外推理成本。相比之下，坐标生成模型即使采样多次，输出也往往高度相似。GUI-Actor的候选区域是相互独立的，提高了捕获所有有效动作区域的机会。

OS-World-W在线评估： 在OS-World-W（49个Windows特定任务）的在线评估中，GUI-Actor-7B作为动作定位模块，实现了12.2%的任务成功率，优于OmniAgent和NAVI（10.2%），并显著超越Aguvis-7B（4.0%）。这验证了GUI-Actor在复杂真实世界GUI环境中的有效性和鲁棒性。

5. 局限性

小元素识别挑战： 现有骨干VLM（如Qwen2-VL）采用固定补丁大小（28x28像素）的朴素动态分辨率策略。这使得处理非常小的界面元素（如小于10x10像素的图标）时面临挑战，因为这些细粒度细节可能无法充分表示。尤其在需要高精度控制的专业软件（如CAD工具）中，这一问题可能更明显。

6. 结论

GUI-Actor提出了一种新颖的无坐标视觉定位框架，通过引入 token和基于注意力的动作头，直接在屏幕上定位GUI元素。这种机制明确地将空间视觉特征与指令的语义信号对齐，并自然地支持基于边界框的多补丁监督，从而减轻了单点预测固有的模糊性。得益于其单次传播即可提出多个候选区域的能力，GUI-Actor进一步采用轻量级验证器在推理时选择最合理的点击目标。实验证明，GUI-Actor在各种基准测试中超越了现有SOTA方法，并对未见过的布局和屏幕分辨率展现出更强的泛化能力。对框架中各组件的广泛分析突显了其在推进视觉GUI智能体方面的巨大潜力。

原文：[2506.03143] GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents