通过UI分解与合成扩展Computer-Use定位能力AI Agents 技术播客

通过UI分解与合成扩展Computer-Use定位能力

51分钟 ·
播放数20
·
评论数0

这篇论文通过引入更全面的基准 OSWORLD-G 和迄今为止最大的合成数据集 JEDI,显著推动了 GUI 接地领域的发展。研究表明,现有基准未能捕捉真实世界交互的复杂性,而 OSWORLD-G 通过细粒度的任务分类和标注解决了这一问题。JEDI 数据集通过多视角任务分解和合成技术,为训练更强大的接地模型提供了大规模、多样化的数据。实验证明,基于 JEDI 训练的模型在接地能力上取得了显著提升,并且这种改进的接地能力直接促进了通用基础模型在复杂计算机使用任务上的智能体表现,达到了与现有专用模型相当甚至超越的水平。论文强调,增强接地能力是构建高效计算机使用智能体系统的重要方向。未来的工作将进一步探索利用互联网数据和构建类人导航器来扩展数据集和提升模型能力。

主要主题:

  • GUI 接地的挑战: 现有的 GUI 接地基准过于简化,无法捕捉真实世界交互的复杂性,包括软件常识、布局理解和精细操作。
  • OSWORLD-G 基准: 引入一个更全面、细粒度的 GUI 接地基准,涵盖多种任务类型,以更好地评估智能体的真实世界交互能力。
  • JEDI 数据集: 构建和发布迄今为止最大的计算机使用接地数据集,通过多视角分解任务来提高数据量和多样性。
  • 多尺度模型和性能提升: 利用 JEDI 数据集训练的多尺度模型在现有及新基准上均取得了最先进的性能。
  • 接地能力对智能体能力的影响: 改进的接地能力直接提升了通用基础模型在复杂计算机任务上的智能体表现。
  • 数据合成和泛化: 结合不同界面元素的专门数据能够实现对新界面的组合泛化。

关键思想和事实:

  1. GUI 接地的重要性:
  • 论文开篇即强调 GUI 接地是计算机使用智能体有效与图形用户界面交互的基石。
  • “Graphical user interface (GUI) grounding, the ability to accurately map natural language instructions to specific actions (including the positions of on-screen elements), is a cornerstone for computer use agents to effectively interact with GUIs on devices such as mobile phones and desktop computers.” (摘要和引言)
  • 它不仅是一个孤立的人机交互组件,也是多模型协作智能体和端到端模型的促进者。
  1. 现有基准的局限性:
  • 现有基准(如 ScreenSpot-v2)将接地任务过度简化为简短的指代表达式,无法体现真实世界交互所需的复杂性。
  • “Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities.” (摘要)
  • 现有评估方法缺乏细微差别或通过不自然条件(如 ScreenSpot-Pro 的极端分辨率)人为增加难度。
  1. OSWORLD-G 基准的构建和特点:
  • OSWORLD-G 是一个综合性基准,包含 564 个经过精细标注的样本。
  • 样本来源于 OSWorld 基准环境的实际操作,涵盖多样化的元素、细粒度组件和丰富的布局。
  • 标注包括指令和对应的边界框,即使是文本编辑等细粒度任务也能确定像素区域。
  • 采用 CVAT 2 平台进行标注,由熟悉软件细节的人员完成并经过实际测试验证。
  • 每个样本都分配了细粒度的 UI 类型标签,并提供了无需软件知识即可执行的改写指令。
  • 平均每个样本标注时间约为 0.5 人时。
  1. OSWORLD-G 的任务类型和能力维度:
  • OSWORLD-G 将任务分为五种能力维度,反映核心模型能力:
  • Text Matching (文本匹配): 根据指令中明确的文本信息进行接地(例如:“Select ‘As Attachment‘”)。包含 268 个样本。
  • Element Recognition (元素识别): 识别图标、图像、按钮等视觉模式,并根据隐含功能识别元素(例如:通过软盘图标识别“保存”按钮)。包含 337 个样本。
  • Layout Understanding (布局理解): 理解选项卡、菜单栏、下拉菜单、面板等布局结构。包含 252 个样本。
  • Fine-grained Manipulation (细粒度操作): 对滑块、步进器、文本字段、输入框、分割线、表格等进行精确操作。包含 154 个样本。
  • Refusal (拒绝): 识别和拒绝不可行指令(例如:当屏幕上没有 Firefox 图标时,执行“Click to open the Firefox browser”)。包含 54 个样本。
  • “Leveraging the fine-grained element type tags, we categorize tasks into capabil-ity dimensions that directly reflect core model competencies: text matching, el-ement recognition, layout understanding, fine-grained manipulation, and refusal han-dling, as presented in Table 1.” (方法部分)
  1. JEDI 数据集的合成和特点:
  • JEDI 是通过多视角任务分解合成的迄今为止最大的计算机使用接地数据集,包含 400 万个示例。
  • 数据合成主要通过代码-渲染管道实现,利用主流生产级 UI 组件库(如 Material UI)的示例代码,并使用 LLM 合成特定任务的功能案例。
  • 渲染结果提供视觉截图,并提取元数据(元素位置树、组件名称、坐标等)。
  • 数据来源多样,包括现有数据集(AGUVIS++、OS-Atlas、SeeClick、WebUI、GUIEnv、OmniACT 等)和内部标注数据。
  • 内部标注数据通过记录人类使用计算机时的行为和屏幕截图生成。
  • 数据集包含 Icon Captioning、Icon Grounding、Component Manipulation、Layout Captioning 和 Refusal Data 等多种类型。
  1. 模型训练和性能评估:
  • 使用不同大小的最新 Qwen2.5-VL [5] 作为骨干模型进行微调。
  • 在 ScreenSpot-v2、ScreenSpot-Pro 和 OSWORLD-G 等基准上评估接地能力。
  • 在 OSWorld 和 WindowsAgentArena 等在线环境上评估智能体能力。
  • 接地能力结果 (Table 4, OSWORLD-G):JEDI-7B 在 Text Matching (65.9%)、Element Recognition (55.5%)、Layout Understanding (57.7%) 和 Fine-grained Manipulation (46.9%) 上的表现均优于其他模型。
  • 整体准确率 JEDI-7B (54.1%) 优于其他模型。
  • 模型在文本匹配上表现最好,在细粒度操作上表现最差。
  • 除 Gemini-2.5-Pro 外,大多数模型(包括专门训练的模型)很少产生拒绝预测。
  • 智能体能力结果 (Table 5):使用 JEDI 模型作为接地组件时,使用 GPT-4o 作为规划器的简单智能体在 OSWorld 和 WindowsAgentArena 上取得了最先进的性能。
  • “The results demonstrate that, when using our model as the grounding component, a simple agent with foundation models that are not spe-cialized in computer use tasks can achieve state-of-the-art performance, surpassing previous ap-proaches that used 72B-scale models for ground-ing, and matching the performance of special-ized models.” (实验部分)
  • 性能随着部署规模(步数)的增加而提高。
  • 这表明增强接地能力是构建高效智能体系统的起点。
  1. 数据合成和泛化能力:
  • 通过详细的消融研究,发现结合不同界面元素的专门数据有助于实现对新界面的组合泛化。
  1. 限制和未来工作:
  • 主要讨论数据合成方法,未来的扩展可以通过神经网络从互联网图像和视频中提取屏幕截图数据。
  • 基于增强的接地模型,可以构建类人的导航器,在数字世界中互动,收集更多互动数据以进一步提高接地能力和模型知识。

原文:[2505.13227] Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis