看视频给AI当监考官

看视频给AI当监考官

17分钟 ·
播放数6
·
评论数0

Video-Based Reward Modeling forComputer-Use Agents

这篇论文的核心是给 “电脑操作代理(CUA)” 做一个 “通用裁判”—— 不用看代理的内部逻辑,只靠它操作电脑时的屏幕录像,就能精准判断任务有没有完成,还能指出哪里出了错。

简单说,现在很多 AI 能帮人操作电脑(比如编辑文档、用软件),但怎么判断它做得对不对是个难题:要么靠人工写死的规则(换个任务就没用),要么只看最终屏幕(容易漏看中间关键错误)。这篇论文就解决了这个问题,具体做法很实在:

1. 先搞了个超大 “训练题库”:ExeVR-53k

这个题库里有 5.3 万个 “任务 + 屏幕录像 + 判断结果” 的组合,来源特别全 —— 既有人类操作电脑的示范,也有 30 多种不同 AI 代理的操作记录,覆盖 Windows、Mac、Ubuntu、Android 四种系统,任务包括办公、上网、文件管理等。

关键是题库里不仅有 “成功案例”,还有专门造的 “失败案例”:用一种叫 “对抗性指令翻译” 的方法,给一个成功的操作录像配一个看似合理但其实不匹配的任务(比如把 “编辑文档” 的录像配 “删除文档” 的任务),还标注出从哪一步开始对不上,让模型能学懂 “什么情况下算做错”。

2. 给模型加了 “去冗余滤镜”:时空令牌修剪(STP+TTP)

电脑操作的录像有个大问题:大部分内容都是重复的(比如桌面背景、不变的工具栏),但判断对错的关键往往是细节(比如一个小弹窗、一行文字的修改)。直接让模型看完整录像又慢又占内存,所以研究者设计了两个 “滤镜”:

  • 空间滤镜(STP):自动去掉屏幕上大片不变的区域(比如空白背景),只留按钮、文字这些关键 UI 元素;
  • 时间滤镜(TTP):去掉连续帧里没变化的内容(比如一直显示的菜单栏),只保留有动作的部分(比如点击、输入)。

这样处理后,模型能专注看 “关键信息”,既提高了判断速度,又不会漏看细节。

3. 训练出 “裁判模型”:ExeVRM

基于上面的题库和滤镜,研究者训练出了一个叫 ExeVRM 的模型,核心能力就是 “看录像判对错”—— 输入用户的任务指令 + AI 操作的屏幕录像,模型直接输出 “成功 / 失败”,还能指出第一个错误出现的时间点。

这个模型厉害在哪?

  • 准确率超高:84.7% 的判断正确率,87.7% 的失败案例识别率,比 GPT-5.2、Gemini-3 Pro 这些强模型表现还好;
  • 跨系统通用:在四种系统上都稳定发挥,不用针对每个系统单独调整;
  • 能精准找错:比如 AI 在第 3 步点错了按钮,模型能准确定位到这个时间点,方便后续调试。

总结一下

这篇论文相当于给所有 “电脑操作 AI” 提供了一个 “通用评分器”—— 不管 AI 是怎么设计的,只要录下它操作的屏幕,就能快速、准确地判断任务完成情况,还能定位错误。这解决了 AI 操作电脑的 “评价难题”,让后续优化 AI 变得更高效,也推进了这类 AI 的落地实用。