01:05 整期概述
- 数据、架构、后训练、加速、评测体系、模型对比
01:39 核心能力
- 中文语音(方言 + 情绪)
- 人物一致性(不变脸 + 口型同步)
- 运镜能力(复杂镜头)
- 叙事能力(自动补全故事)
- 表演能力(戏曲 + 微表情)
04:49 数据
- 音画同步
- 动作丰富
- 难度分级
- 精细标注(画面 + 音频 + 情绪)
06:20 模型架构(MMDiT)
- 音频 + 视频联合建模
- 时间轴对齐
- 支持多输入生成(text / image)
07:14 后训练
- 高质量数据微调(电影 / MV)
- RLHF 提升质量与情绪
07:47 推理加速
- 蒸馏(大模型 → 小模型)
- 减少扩散步骤
- 量化 / 并行(≈10×提速)
08:50 新评测体系
- Seed Video Bench 1.5
- 视频评测
- Video-Vidvidness(活人感)
- 表情 / 动作 / 运镜 / 互动
- 解决“AI视频不真实”问题
- 音频评测
- 指令一致
- 音质
- 音画同步
- 情绪表达
- 视频评测
11:31 模型对比
- 中文语音:优于 Google Veo
- 音画同步:优于 Google Veo,Kling 2.6
- 情绪表达:比 OpenAI Sora 更克制(更适合商业)
13:34 总结
大家快去试试吧~
论文指路:Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

