00:29 Nvidia宏观生态
- Omniverse(虚拟世界建模)
- Cosmos World Foundation Model(多样化场景生成)
- GPU / DGX 训练
- Jetson 部署
01:48 DreamZero五大核心贡献
- 预测未来视频 + 动作
- 泛化性提升
- 38× 推理加速
- 人类视频 → 机器人跨身体迁移
- 开源
03:59 Discussion
- Scaling law 在世界动作模型中是否存在
- 人类视频是否可用
- 速度是否够快
- 如何突破记忆长度 6 秒限制
- WAM高精度操作能力
- 人形机器人是否更优
07:46 三大核心挑战
- 视频–动作对齐
- 双向 vs 自回归架构选择
- 推理太慢
10:20 模型架构拆解

- 输入输出结构
- Joint Video-Action DiT
- 真实观测替换 自回归 + KV cache 预测结果
- 损失函数:共享t_k


- Teacher Forcing
17:12 推理加速
- 异步执行结构
- 系统级优化:CFG 并行 / DiT cache
- Dream Zero Flash利用去耦噪声的超强升级版
论文指路:dreamzero0.github.io

