这篇文档核心是介绍一款叫 VIDEOSCORE2 的 AI 视频评分工具,专门用来评判 AI 生成视频(比如用文字生成的视频)的好坏,用大白话讲清楚就是:
1. 为啥要做这个工具?
现在 AI 生成视频越来越逼真,但想客观评价它好不好却很难 —— 比如有的视频画面清晰但内容和文字描述对不上,有的内容对了但物理逻辑离谱(比如物体突然瞬移)。
而之前的评分工具要么只给一个笼统分数(比如 “8 分”),不说为啥给分;要么只能评某一个方面(比如只看画面),没法全面判断。所以研究者就做了 VIDEOSCORE2,解决这些问题。
2. 这个工具怎么评视频?
它不搞 “一刀切”,而是从三个核心维度打分(1-5 分,5 分最好),还会详细说明打分理由:
- 画面质量:看视频清不清晰、有没有模糊、亮度稳不稳定、画面会不会变形等;
- 内容匹配度:看视频内容和输入的文字描述对不对得上 —— 比如文字说 “穿蓝衬衫的人打果汁”,视频里是不是这个人、有没有打果汁的动作、细节对不对;
- 物理 / 常识逻辑:看视频符不符合现实规律和常识 —— 比如杯子掉地上会不会正常下落、人物动作会不会违背人体结构、有没有突然出现的奇怪场景。
举个例子:如果视频里 “打果汁的人突然手的姿势变了”,工具会在 “物理逻辑” 里给低分,还会明确写 “搅拌机的摆放角度突然变化,不符合常识”。
3. 工具是怎么训练出来的?
研究者找了 27000 多个 AI 生成的视频,覆盖了从早期差模型到最新好模型的输出,还专门设计了难住 AI 的场景(比如让视频里出现文字、多动作连贯场景、镜头移动等)。
然后让 15 个标注员给这些视频打分、写问题备注,再用大模型把备注扩写成详细理由,最后用 “先教基础规则,再强化优化” 的两阶段方法训练工具,确保它评得准、理由说得通。
4. 这个工具厉害在哪?
- 评得准:在专门的测试集上准确率 44.35%,比之前的工具高 5 个多百分点;换其他测试场景(比如不同类型的视频),平均表现也能排第一;
- 能解释:不只是给分数,还会像人一样分析 “哪里好、哪里不好”,比如 “画面清晰度够但没体现文字里的‘镜头拉远’动作”;
- 有用途:能帮 AI 生成视频时做筛选 —— 比如让模型生成 5 个版本,用它挑出最好的那个,比瞎选效果好很多。
5. 总结一下
VIDEOSCORE2 就像一个 “AI 视频裁判”,既能全面评判 AI 生成视频的画面、内容、逻辑好不好,又能说清评判依据,不管是用来改进生成模型,还是直接筛选优质视频,都很实用。
