GenVidBench：一个用于 AI 生成视频检测的 600 万级基准数据集

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

这篇来自华为诺亚方舟实验室的论文，核心是解决AI 生成视频越来越逼真，难辨真假的问题，作者们打造了一个目前规模最大、难度最高的 AI 生成视频检测数据集GenVidBench，还做了大量实验验证这个数据集的价值，为研究人员开发检测模型提供了重要基础，用大白话讲清楚就是这几点：

为啥要做这个事？

但之前的问题是没有合适的训练 / 测试数据：要么数据集太小，要么视频类型单一，要么训练和测试的视频太相似，练出来的模型在现实中根本不好用，所以作者们才自己造了个高质量的大数据集。现在 Sora 这类 AI 视频生成模型越来越厉害，做出来的视频和真的几乎没差别，很容易被用来传假消息、搞网络诈骗，所以急需能准确识别 “AI 假视频” 的检测模型。

这个 GenVidBench 数据集有多牛？

它是目前首个 600 万级的 AI 视频检测数据集，实际有 678 万条视频，核心优势就仨，还专门做了 “高难度设计”，让练出来的模型更实用：

规模大 + 覆盖全：包含 11 个当下最先进的 AI 视频生成器（比如 Sora、Pika、Mora）做的假视频，还有 2 个来源的真实视频，分辨率、帧率从低到高都有，能覆盖各种场景；

跨源 + 跨生成器设计（核心难点）：把视频分成训练集和测试集，训练和测试用的是不同生成器、不同生成来源的视频（比如训练用 Pika 做的视频，测试用 SVD 做的），还让同个内容用文字 / 图片当提示词，分别生成假视频、匹配真视频，避免模型 “作弊”—— 只靠视频内容 / 画质辨真假，逼模型学真正的 “AI 视频特征”；

标签超详细：给视频标了「主体（人 / 动物 / 植物等）、动作（静止 / 活动等）、场景（户外 / 室内 / 交通场景等）」三类语义标签，研究人员能挑特定场景做针对性研究（比如专门检测 “人物类 AI 假视频”）；

还做了轻量版：原版数据量太大，训练起来费算力，所以抽了个 14.3 万条的小版本 GenVidBench-143k，能让研究人员快速试模型、迭代思路。

用这个数据集做了哪些实验？得出啥结论？

作者们用目前最先进的十几种视频识别模型（比如 VideoSwin、DeMamba、SlowFast）在这个数据集上做了大量测试，核心结论很直观：

跨源跨生成器检测真的难：如果模型用同个生成器的视频训练 + 测试，准确率能到 97% 以上，但换个生成器测试，准确率直接暴跌（比如用 Pika 训练，测 SVD 的视频，准确率才 54%），这也说明现实中检测 AI 假视频的难度，而这个数据集正好能练模型的 “泛化能力”；

不同模型表现差很多：目前DeMamba 模型表现最好，准确率 85.47%，Transformer 类模型整体比传统 CNN 模型好用，真实视频比 AI 假视频更容易识别（大部分模型辨真视频准确率超 95%）；

这个数据集比之前的都难：把同款检测模型放到旧数据集上，准确率能到 80% 甚至 90%，但放到 GenVidBench 上准确率直接降一大截，说明这个数据集更贴合现实，练出来的模型更靠谱；

不同场景检测难度不同：比如 SVD 生成的视频最难辨，卡通类、植物类场景的检测难度也不一样，详细的语义标签能帮研究人员针对性优化模型。

最后总结

这篇论文的核心贡献，就是造了GenVidBench 这个 678 万级的高难度 AI 视频检测数据集，解决了之前检测模型 “没好数据练” 的问题，还通过大量实验摸清了当前检测模型的能力上限和难点，为后续研究人员开发更实用、更通用的 AI 假视频检测模型，打下了坚实的基础，而且作者还公开了数据集和代码，方便大家研究使用。

简单说，就是华为做了个 “最难的 AI 假视频题库”，让研究人员能练出真正能在现实中用的 “辨假模型”。