MONDAY：可扩展的视频到数据集生成

概述：

这篇论文介绍了 MONDAY（Mobile OS Navigation Task Dataset for Agents from YouTube），这是一个大规模的数据集，包含从 2 万个教学视频中提取的 31.3 万个带注释的帧，涵盖了多种平台（iOS 和 Android）上真实的移动操作系统导航任务。该数据集旨在解决现有移动操作系统数据集的局限性，例如规模小、依赖手动标注、过时快以及对不同用户配置和真实世界任务覆盖不足等问题。为了实现数据集的持续扩展，该论文提出了一种自动化框架，该框架利用公开可用的视频内容生成全面的任务数据集，无需手动标注。MONDAY 数据集和自动化收集框架被贡献出来，以促进移动操作系统导航领域的未来研究。

主要主题和重要思想/事实：

现有移动操作系统数据集的局限性：

目前的移动操作系统数据集存在一些显著的限制。例如，Android in the Wild (AitW) [41] 仅限于使用系统日志的 Pixel 模拟器，而 AndroidControl [22] 和 AMEX [4] 缺乏多平台覆盖。MobileEnv [53] 和 AndroidEnv [49] 也专注于模拟环境，无法反映真实世界的导航多样性。ScreenSpot [8] 虽然涵盖多个平台，但仅支持 GUI 接地（GUI grounding）。

“Manual annotation is time-consuming, rapid OS updates quickly make existing datasets obsolete, and they cover only a limited range of user configurations and real-world tasks.”（手动标注耗时，快速的操作系统更新很快使现有数据集过时，并且它们只覆盖有限的用户配置和真实世界任务。）

MONDAY 数据集：

MONDAY 是一个大规模的移动操作系统导航数据集，包含从 YouTube 上的真实世界教学视频中提取的 2 万个视频和 31.3 万个带注释的帧。

该数据集涵盖了广泛的真实世界移动操作系统任务和导航过程，包括单点操作（触摸、长按）、基于运动的操作（滚动、多点触控、缩放）、文本输入（打字）和硬件特定操作（主页、返回、音量控制等）。

MONDAY 数据集提供跨不同平台和配置的广泛覆盖，这是现有数据集所不具备的。

数据集是通过利用 YouTube 上包含丰富真实世界任务和环境的公开可用移动操作系统教学视频构建的，无需手动标注。

数据集分为训练集（19,725 个视频）、验证集（495 个视频）和测试集（100 个视频）。验证集和测试集在平台（iOS 和 Android）之间保持平衡分布。

视频时长主要集中在 1-5.5 分钟之间，平均时长为 2.66 分钟，反映了移动操作系统教学内容的典型长度。

数据集中的动作分布反映了真实世界的使用模式，其中触摸操作占多数（79.83%），其次是滚动（8.53%）和其他操作。

数据集包含 2,479 个独特的应用程序，其中操作系统原生应用程序和第三方应用程序的比例为 37.6% : 62.4%，平衡地代表了移动设备的使用情况。

自动化数据集收集框架：

该论文提出了一个自动化的框架，用于处理教学视频并创建任务数据集，以实现数据集的持续扩展。

框架包括以下关键组件：

基于 OCR 的场景检测： 使用 Paddle OCR [21] 从连续帧中提取文本及其位置，通过跟踪相同屏幕位置的文本元素并在文本丢失或更改时标记过渡，从而实现鲁棒的场景过渡检测。该方法的 F1 分数达到 95.04%，显著优于传统的基于视觉的方法。

UI 元素检测： 结合使用 GroundingDINO [26] 进行图标检测和使用 OCR [21] 进行文本检测，然后进行专门设计的移动特定启发式过滤，以识别真实的交互元素。该方法在评估数据集上的 Hit Ratio 达到 99.87%，显著优于 OmniParser [28]。

三步行动识别： 使用 GPT-4o [37] 实现精确的行动本地化，包括场景摘要、初始行动识别（使用 Set-of-Marks (SoM) 表示 [52]）和行动细化。该过程利用视频叙述来消除复杂场景中动作的歧义。

“Our framework comprises robust OCR-based scene detection (95.04% F1-score), near-perfect UI element detection (99.87% hit ra-tio), and novel multi-step action identification to extract re-liable action sequences across diverse interface configura-tions.”（我们的框架包括鲁棒的基于 OCR 的场景检测（95.04% 的 F1 分数）、近乎完美的 UI 元素检测（99.87% 的命中率）和新颖的多步行动识别，以在各种界面配置中提取可靠的行动序列。）

该自动化框架可以可靠地提取导航过程，无需平台特定的适应。

跨平台泛化能力：

将 MONDAY 纳入预训练阶段的模型展示出强大的跨平台泛化能力。

与使用现有单一操作系统数据集训练的模型相比，包含 MONDAY 的模型在未见过的移动操作系统平台（Windows Mobile）上的平均性能提升了 18.11%p。

“Moreover, models that include MONDAY in their pre-training phases demonstrate superior generalization capa-bilities across different platforms, while achieving an av-erage performance gain of 18.11%p on unseen mobile OS compared to existing approaches.”（此外，将 MONDAY 纳入预训练阶段的模型展示出卓越的跨平台泛化能力，与现有方法相比，在未见过的移动操作系统上实现了 18.11%p 的平均性能提升。）

这种成功的泛化能力归因于数据集的多平台特性和多样性，这有助于模型学习与平台无关的导航模式，以及接触各种 UI 布局和配置。

行动识别的准确性：

论文评估了不同消融方法下的行动识别准确性。

论文提出的多图像三步法在所有指标上都优于更简单的变体，证明了每个组件的重要性。

多图像三步法的总体行动识别准确性为 80.90%，触摸行动识别准确性为 91.84%。

最终细化步骤对于精确本地化动作至关重要，从三步法到两步法的性能下降（91.84% 到 89.97%）证明了这一点。

叙述和时间上下文对于移动操作系统导航中的行动识别至关重要，没有叙述或仅使用单图像的方法表现较差。

与其他方法的比较：

MONDAY 在数据集规模、真实世界数据、代码访问和多平台覆盖方面优于现有移动操作系统导航数据集，同时消除了手动人工标注的需要（见表 1）。

基于 OCR 的场景检测方法在 F1 分数上（95.04%）显著优于基于视觉的基线方法 YUV-diff (70.86%) 和 SceneCut (82.27%)（见表 2）。

提出的 UI 元素检测方法在 Hit Ratio 上（99.87%）显著优于 OmniParser [28] (91.83%)（见表 3）。

使用 MONDAY 训练的模型在下游移动导航任务中的表现优于基线模型，尤其是在未见过的 Windows Mobile 平台上的泛化能力。

未来工作和影响：

自动化框架无需人工干预即可提取准确的行动序列，代表着朝着可扩展移动操作系统数据集迈出的重要一步。

模块化设计允许集成专门的模型或替换 GPT-4o，从而使系统适应未来模型能力的改进。

这项工作为开发更鲁棒、适应性更强的移动操作系统 GUI 可视代理开辟了新的可能性，尤其适用于界面多样性和跨平台操作至关重要的实际应用。

组织可以将其方法应用于自己的教学视频，以实现对新界面模式和操作系统版本的持续适应。

原文：[2505.12632] Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents