GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection
这篇来自华为诺亚方舟实验室的论文,核心是解决AI 生成视频越来越逼真,难辨真假的问题,作者们打造了一个目前规模最大、难度最高的 AI 生成视频检测数据集GenVidBench,还做了大量实验验证这个数据集的价值,为研究人员开发检测模型提供了重要基础,用大白话讲清楚就是这几点:
为啥要做这个事?
但之前的问题是没有合适的训练 / 测试数据:要么数据集太小,要么视频类型单一,要么训练和测试的视频太相似,练出来的模型在现实中根本不好用,所以作者们才自己造了个高质量的大数据集。现在 Sora 这类 AI 视频生成模型越来越厉害,做出来的视频和真的几乎没差别,很容易被用来传假消息、搞网络诈骗,所以急需能准确识别 “AI 假视频” 的检测模型。
这个 GenVidBench 数据集有多牛?
它是目前首个 600 万级的 AI 视频检测数据集,实际有 678 万条视频,核心优势就仨,还专门做了 “高难度设计”,让练出来的模型更实用:
- 规模大 + 覆盖全:包含 11 个当下最先进的 AI 视频生成器(比如 Sora、Pika、Mora)做的假视频,还有 2 个来源的真实视频,分辨率、帧率从低到高都有,能覆盖各种场景;
- 跨源 + 跨生成器设计(核心难点):把视频分成训练集和测试集,训练和测试用的是不同生成器、不同生成来源的视频(比如训练用 Pika 做的视频,测试用 SVD 做的),还让同个内容用文字 / 图片当提示词,分别生成假视频、匹配真视频,避免模型 “作弊”—— 只靠视频内容 / 画质辨真假,逼模型学真正的 “AI 视频特征”;
- 标签超详细:给视频标了「主体(人 / 动物 / 植物等)、动作(静止 / 活动等)、场景(户外 / 室内 / 交通场景等)」三类语义标签,研究人员能挑特定场景做针对性研究(比如专门检测 “人物类 AI 假视频”);
- 还做了轻量版:原版数据量太大,训练起来费算力,所以抽了个 14.3 万条的小版本 GenVidBench-143k,能让研究人员快速试模型、迭代思路。
用这个数据集做了哪些实验?得出啥结论?
作者们用目前最先进的十几种视频识别模型(比如 VideoSwin、DeMamba、SlowFast)在这个数据集上做了大量测试,核心结论很直观:
- 跨源跨生成器检测真的难:如果模型用同个生成器的视频训练 + 测试,准确率能到 97% 以上,但换个生成器测试,准确率直接暴跌(比如用 Pika 训练,测 SVD 的视频,准确率才 54%),这也说明现实中检测 AI 假视频的难度,而这个数据集正好能练模型的 “泛化能力”;
- 不同模型表现差很多:目前DeMamba 模型表现最好,准确率 85.47%,Transformer 类模型整体比传统 CNN 模型好用,真实视频比 AI 假视频更容易识别(大部分模型辨真视频准确率超 95%);
- 这个数据集比之前的都难:把同款检测模型放到旧数据集上,准确率能到 80% 甚至 90%,但放到 GenVidBench 上准确率直接降一大截,说明这个数据集更贴合现实,练出来的模型更靠谱;
- 不同场景检测难度不同:比如 SVD 生成的视频最难辨,卡通类、植物类场景的检测难度也不一样,详细的语义标签能帮研究人员针对性优化模型。
最后总结
这篇论文的核心贡献,就是造了GenVidBench 这个 678 万级的高难度 AI 视频检测数据集,解决了之前检测模型 “没好数据练” 的问题,还通过大量实验摸清了当前检测模型的能力上限和难点,为后续研究人员开发更实用、更通用的 AI 假视频检测模型,打下了坚实的基础,而且作者还公开了数据集和代码,方便大家研究使用。
简单说,就是华为做了个 “最难的 AI 假视频题库”,让研究人员能练出真正能在现实中用的 “辨假模型”。
