告别机械打分：VideoGen-Eval——用大模型Agent打造“通人性”的视频评测新基准

当 Sora 等视频模型狂飙突进时，传统的评测却还在用简单的提示词和机械指标“盲人摸象”，甚至给画面闪烁的烂片打高分。VideoGen-Eval 横空出世，通过构建一个由大模型驱动的智能体裁判团打破了僵局。它不仅能像人类导演一样拆解复杂的拍摄指令，还能调度多模态模型和专用工具进行动态、细腻的“会诊”。这一系统在万余个视频的实战中证明，AI 也能拥有堪比人类的审美与判断力，真正读懂视频生成的优劣。

原文题目：VideoGen-Eval: Agent-based System for Video Generation Evaluation

原文链接：arxiv.org

你将听到：

面对 Sora 等新一代视频模型，现有评测体系在提示词（Prompt）复杂度和评估算子（Evaluator）适应性方面存在哪些具体局限？

VideoGen-Eval 提出的 Agent 框架如何利用 LLM 进行“内容结构化”，并将 MLLM 从主观打分转换为客观判断，以实现动态评估？

针对 MLLM 难以捕捉的时间密集型特征（如时间一致性），该系统引入了哪些“补丁工具”（Patch Tools）来增强评估的可靠性？

该研究构建的评测基准（Benchmark）包含多少结构化提示词与生成视频，又是如何通过人类标注来确保数据资产质量的？

实验结果显示，与传统静态评估指标（如 VBench 算子）相比，这种基于 Agent 的系统在“人类偏好对齐”方面表现如何？