英伟达在布局什么?DreamZero让视频扩散模型提速38倍?人类视频=机器人训练数据?Avo妙妙屋

英伟达在布局什么?DreamZero让视频扩散模型提速38倍?人类视频=机器人训练数据?

22分钟 ·
播放数25
·
评论数0

00:29 Nvidia宏观生态

  • Omniverse(虚拟世界建模)
  • Cosmos World Foundation Model(多样化场景生成)
  • GPU / DGX 训练
  • Jetson 部署

01:48 DreamZero五大核心贡献

  • 预测未来视频 + 动作
  • 泛化性提升
  • 38× 推理加速
  • 人类视频 → 机器人跨身体迁移
  • 开源

03:59 Discussion

  • Scaling law 在世界动作模型中是否存在
  • 人类视频是否可用
  • 速度是否够快
  • 如何突破记忆长度 6 秒限制
  • WAM高精度操作能力
  • 人形机器人是否更优

07:46 三大核心挑战

  • 视频–动作对齐
  • 双向 vs 自回归架构选择
  • 推理太慢

10:20 模型架构拆解

  • 输入输出结构
  • Joint Video-Action DiT
  • 真实观测替换 自回归 + KV cache 预测结果
  • 损失函数:共享t_k
  • Teacher Forcing

17:12 推理加速

  • 异步执行结构
  • 系统级优化:CFG 并行 / DiT cache
  • Dream Zero Flash利用去耦噪声的超强升级版

论文指路:dreamzero0.github.io