VIDEOSCORE2 ：生成式视频评估，先分析再打分

听论文-懂大模型评测

17分钟 ·4个月前

8

·

0

这篇文档核心是介绍一款叫 VIDEOSCORE2 的 AI 视频评分工具，专门用来评判 AI 生成视频（比如用文字生成的视频）的好坏，用大白话讲清楚就是：

1. 为啥要做这个工具？

现在 AI 生成视频越来越逼真，但想客观评价它好不好却很难 —— 比如有的视频画面清晰但内容和文字描述对不上，有的内容对了但物理逻辑离谱（比如物体突然瞬移）。

而之前的评分工具要么只给一个笼统分数（比如 “8 分”），不说为啥给分；要么只能评某一个方面（比如只看画面），没法全面判断。所以研究者就做了 VIDEOSCORE2，解决这些问题。

2. 这个工具怎么评视频？

它不搞 “一刀切”，而是从三个核心维度打分（1-5 分，5 分最好），还会详细说明打分理由：

画面质量：看视频清不清晰、有没有模糊、亮度稳不稳定、画面会不会变形等；

内容匹配度：看视频内容和输入的文字描述对不对得上 —— 比如文字说 “穿蓝衬衫的人打果汁”，视频里是不是这个人、有没有打果汁的动作、细节对不对；

物理 / 常识逻辑：看视频符不符合现实规律和常识 —— 比如杯子掉地上会不会正常下落、人物动作会不会违背人体结构、有没有突然出现的奇怪场景。

举个例子：如果视频里 “打果汁的人突然手的姿势变了”，工具会在 “物理逻辑” 里给低分，还会明确写 “搅拌机的摆放角度突然变化，不符合常识”。

3. 工具是怎么训练出来的？

研究者找了 27000 多个 AI 生成的视频，覆盖了从早期差模型到最新好模型的输出，还专门设计了难住 AI 的场景（比如让视频里出现文字、多动作连贯场景、镜头移动等）。

然后让 15 个标注员给这些视频打分、写问题备注，再用大模型把备注扩写成详细理由，最后用 “先教基础规则，再强化优化” 的两阶段方法训练工具，确保它评得准、理由说得通。

4. 这个工具厉害在哪？

评得准：在专门的测试集上准确率 44.35%，比之前的工具高 5 个多百分点；换其他测试场景（比如不同类型的视频），平均表现也能排第一；

能解释：不只是给分数，还会像人一样分析 “哪里好、哪里不好”，比如 “画面清晰度够但没体现文字里的‘镜头拉远’动作”；

有用途：能帮 AI 生成视频时做筛选 —— 比如让模型生成 5 个版本，用它挑出最好的那个，比瞎选效果好很多。

5. 总结一下

VIDEOSCORE2 就像一个 “AI 视频裁判”，既能全面评判 AI 生成视频的画面、内容、逻辑好不好，又能说清评判依据，不管是用来改进生成模型，还是直接筛选优质视频，都很实用。

在小宇宙打开