VIDEOSCORE2 :生成式视频评估,先分析再打分

VIDEOSCORE2 :生成式视频评估,先分析再打分

17分钟 ·
播放数8
·
评论数0

这篇文档核心是介绍一款叫 VIDEOSCORE2 的 AI 视频评分工具,专门用来评判 AI 生成视频(比如用文字生成的视频)的好坏,用大白话讲清楚就是:

1. 为啥要做这个工具?

现在 AI 生成视频越来越逼真,但想客观评价它好不好却很难 —— 比如有的视频画面清晰但内容和文字描述对不上,有的内容对了但物理逻辑离谱(比如物体突然瞬移)。

而之前的评分工具要么只给一个笼统分数(比如 “8 分”),不说为啥给分;要么只能评某一个方面(比如只看画面),没法全面判断。所以研究者就做了 VIDEOSCORE2,解决这些问题。

2. 这个工具怎么评视频?

它不搞 “一刀切”,而是从三个核心维度打分(1-5 分,5 分最好),还会详细说明打分理由:

  • 画面质量:看视频清不清晰、有没有模糊、亮度稳不稳定、画面会不会变形等;
  • 内容匹配度:看视频内容和输入的文字描述对不对得上 —— 比如文字说 “穿蓝衬衫的人打果汁”,视频里是不是这个人、有没有打果汁的动作、细节对不对;
  • 物理 / 常识逻辑:看视频符不符合现实规律和常识 —— 比如杯子掉地上会不会正常下落、人物动作会不会违背人体结构、有没有突然出现的奇怪场景。

举个例子:如果视频里 “打果汁的人突然手的姿势变了”,工具会在 “物理逻辑” 里给低分,还会明确写 “搅拌机的摆放角度突然变化,不符合常识”。

3. 工具是怎么训练出来的?

研究者找了 27000 多个 AI 生成的视频,覆盖了从早期差模型到最新好模型的输出,还专门设计了难住 AI 的场景(比如让视频里出现文字、多动作连贯场景、镜头移动等)。

然后让 15 个标注员给这些视频打分、写问题备注,再用大模型把备注扩写成详细理由,最后用 “先教基础规则,再强化优化” 的两阶段方法训练工具,确保它评得准、理由说得通。

4. 这个工具厉害在哪?

  • 评得准:在专门的测试集上准确率 44.35%,比之前的工具高 5 个多百分点;换其他测试场景(比如不同类型的视频),平均表现也能排第一;
  • 能解释:不只是给分数,还会像人一样分析 “哪里好、哪里不好”,比如 “画面清晰度够但没体现文字里的‘镜头拉远’动作”;
  • 有用途:能帮 AI 生成视频时做筛选 —— 比如让模型生成 5 个版本,用它挑出最好的那个,比瞎选效果好很多。

5. 总结一下

VIDEOSCORE2 就像一个 “AI 视频裁判”,既能全面评判 AI 生成视频的画面、内容、逻辑好不好,又能说清评判依据,不管是用来改进生成模型,还是直接筛选优质视频,都很实用。