看视频给AI当监考官

这篇论文的核心是给 “电脑操作代理（CUA）” 做一个 “通用裁判”—— 不用看代理的内部逻辑，只靠它操作电脑时的屏幕录像，就能精准判断任务有没有完成，还能指出哪里出了错。

简单说，现在很多 AI 能帮人操作电脑（比如编辑文档、用软件），但怎么判断它做得对不对是个难题：要么靠人工写死的规则（换个任务就没用），要么只看最终屏幕（容易漏看中间关键错误）。这篇论文就解决了这个问题，具体做法很实在：

这个题库里有 5.3 万个 “任务 + 屏幕录像 + 判断结果” 的组合，来源特别全 —— 既有人类操作电脑的示范，也有 30 多种不同 AI 代理的操作记录，覆盖 Windows、Mac、Ubuntu、Android 四种系统，任务包括办公、上网、文件管理等。

关键是题库里不仅有 “成功案例”，还有专门造的 “失败案例”：用一种叫 “对抗性指令翻译” 的方法，给一个成功的操作录像配一个看似合理但其实不匹配的任务（比如把 “编辑文档” 的录像配 “删除文档” 的任务），还标注出从哪一步开始对不上，让模型能学懂 “什么情况下算做错”。

电脑操作的录像有个大问题：大部分内容都是重复的（比如桌面背景、不变的工具栏），但判断对错的关键往往是细节（比如一个小弹窗、一行文字的修改）。直接让模型看完整录像又慢又占内存，所以研究者设计了两个 “滤镜”：

这样处理后，模型能专注看 “关键信息”，既提高了判断速度，又不会漏看细节。

基于上面的题库和滤镜，研究者训练出了一个叫 ExeVRM 的模型，核心能力就是 “看录像判对错”—— 输入用户的任务指令 + AI 操作的屏幕录像，模型直接输出 “成功 / 失败”，还能指出第一个错误出现的时间点。

这个模型厉害在哪？

这篇论文相当于给所有 “电脑操作 AI” 提供了一个 “通用评分器”—— 不管 AI 是怎么设计的，只要录下它操作的屏幕，就能快速、准确地判断任务完成情况，还能定位错误。这解决了 AI 操作电脑的 “评价难题”，让后续优化 AI 变得更高效，也推进了这类 AI 的落地实用。