#569. 深入 xAI:三个月打造 Grok Imagine、视频生成与世界模型之争,以及视频智能体

#569. 深入 xAI:三个月打造 Grok Imagine、视频生成与世界模型之争,以及视频智能体

89分钟 ·
播放数166
·
评论数0

📝 本期播客简介

本期我们克隆了:Latent Space: Inside xAI: Building Grok Imagine in 3 Months, Videogen vs World Models, and Video Agents— Ethan He

原内容更新时间:2026-06-01

本期节目是一场关于视频生成、世界模型和 Video Agent 的高密度技术访谈。嘉宾 Ethan He 曾在 Nvidia 参与 Cosmos world model,后来加入 xAI,从零参与 Grok Imagine、音视频联合生成、reference video、视频延展和 world model 相关工作。他在节目中复盘了 xAI 如何在短短三个月里,从没有基础设施、没有数据、没有模型的状态,快速做出 Grok Imagine 0.9;也详细解释了视频模型从数据、caption、VAE、diffusion transformer 到 distillation 的完整训练链路。

更重要的是,Ethan 提出了几个非常有判断力的观点:视频模型的很多进步,其实来自语言模型,而不是视频 diffusion 本身;world model 在他看来就是“实时、可交互、长时程的视频”;未来的 Video Agent 会像人类创作者一样,调用视频模型、图像编辑器、FFmpeg 和各种确定性工具,迭代生成真正可用于广告、创作和生产环境的视频内容。这期不仅适合想理解视频生成技术路线的人,也适合想提前看懂 AI 交互界面、生成式媒体和 Agent 未来趋势的听众。

👨‍💻 本期嘉宾

Ethan He,曾在 Nvidia 参与 Cosmos world model 和 Megatron-LM MoE 等工作,后加入 xAI,参与 Grok Imagine、视频生成、音视频联合生成、reference video、视频延展和 world model 相关研发。他的研究经历横跨计算机视觉、自监督学习、大规模 MoE、视频 diffusion、world model 和 LLM Agent。

⏱️ 时间戳

00:00 开场 & 播客简介

从 Cosmos 到 xAI:三个月做出 Grok Imagine

02:42 嘉宾登场:Ethan He 与 Latent Space 社区的缘起

04:14 为什么离开 Nvidia:视频模型也有 scaling law,需要更大算力

05:43 xAI 从零起步:三个月做出 Grok Imagine 0.9

06:15 快速迭代的秘密:人才、infra、compute 与低沟通成本

08:23 模型质量提升的真相:很多突破来自数据和训练 pipeline 里的小 bug

08:37 Coding model 如何改变研究节奏:代码更快,compute 再次成为瓶颈

09:54 高压研发文化:算力昂贵,但这是一场马拉松

视频模型是怎么训练出来的

11:46 为什么做视频模型之前,通常要先做图像模型

12:50 数据从哪里来:人工详细标注与 VLM 生成 synthetic caption

14:12 训练视频模型为什么既需要配对数据,也需要无标签数据

15:07 VAE / tokenizer:为什么不能直接在像素上训练

17:08 Diffusion transformer:从噪声一步步去噪生成图像和视频

17:27 图像模型如何 bootstrap 视频模型:语言与图像连接更密集

18:24 视频压缩路线:逐帧压缩 vs 时间维度压缩

18:55 为什么不用 MP4 token 直接训练:latent space 必须对模型友好

20:00 实时性的代价:时间压缩节省 context,但会引入响应延迟

生成式 UI 与世界模型的早期形态

20:51 Flipbook:像浏览器一样探索模型想象出的网页

22:31 Generative UI:从用户意图直接到像素,而不是先写代码再渲染

24:09 Diffusion 前端,确定性后端:未来界面可能如何被重构

25:15 人机交互的带宽:人类用语音输出,用视觉输入

26:15 NeuroOS:用视频模型模拟操作系统和游戏

27:52 从过拟合现有界面,到想象全新交互系统

28:47 为什么视频模型能生成训练集中不存在的超自然内容

视频模型的成本、加速与音视频联合生成

31:05 视频模型到底有多贵:训练成本接近中等规模 LLM

31:52 被低估的成本:视频存储、特征存储、IO 和 egress

33:29 训练规模:数十万亿视觉 token、百亿级 active 参数

34:16 推理端加速:step distillation 如何把一百步变成几步

36:36 Consistency model、GAN 与少步生成的关系

37:48 Grok Imagine 0.9:大规模音视频联合生成模型

38:00 音频为什么难:speech 更离散,music 更连续

40:25 音视频对齐:模型必须理解每一秒声音和画面的关系

41:20 时间感:为什么 LLM 本身并不真正感知时间

Ethan 对 World Model 的定义

43:47 什么是 world model:实时、可交互、长时程的视频

44:03 交互性:键盘、鼠标、语音都可以成为输入模态

45:00 实时性:游戏需要毫秒级响应,数字人也要接近两百毫秒

46:00 长时程:世界模型不能只生成几秒,而要持续几分钟甚至几小时

47:00 视频延展:通往长时程 world model 的第一步

48:00 长 context 的挑战:五秒视频就可能有五六万 token

49:03 为什么用户喜欢视频延展:它是通往最终目标的中间产品

Reference Video 与动态上下文管理

51:24 长视频里的冗余:不是所有历史都需要一直放进 context

52:01 Reference video:用角色、物体、场景作为生成条件

52:46 为什么 reference 是一种“作弊”,也是一种重要机制

54:34 FramePack 与动态 context selection:离当前越远,信息越压缩

55:52 LLM 与视频模型共享的问题:context pruning 目前仍高度依赖 heuristic

56:14 Continual learning 的可能突破:让模型自己管理上下文

57:00 人类注意力的启发:不是记住一切,而是动态拉取相关信息

xAI 文化与生成式视频安全

58:35 xAI 被低估的地方:move fast、build、宏大目标和 first principles

59:30 如何倒推三个月目标:从数据、训练、人工标注、GPU 周转时间拆解

60:12 Elon Musk 的工作方式:非常 hands-on,直接给反馈

61:09 Grok Voice:实时语音体验、打断能力和车载场景

61:56 生成式视频安全:水印、下架和社交平台治理

62:19 SynthID 的局限:论文公开后,水印也可能被反向工程

63:04 AI 生成内容越来越难识别:从看手指,到看逻辑是否成立

视觉智能为什么来自语言

64:31 核心判断:视觉智能很大程度来自语言模型

65:00 Prompt rewriter:视频模型背后的“大脑”

65:40 为什么视频 diffusion model 很“字面”:用户说“一只猫”,它可能只生成一只不会动的猫

66:10 GPT Image 类模型为什么要“想几分钟”:时间花在推理、重写 prompt 和组织内容上

67:07 不同架构路线:独立 LLM + diffusion、omni model、离散图像 token

68:21 生成—理解—再生成:omni model 可能如何迭代优化图像

69:54 Prompt rewriter 与 diffusion head 不是一回事,但语言侧都在贡献智能

70:33 不需要 joint training,光重写 prompt 就能显著提高画面质量

Video Agent:生成式媒体的下一波

71:54 Video Agent 的愿景:像人类创作者一样调用工具、编辑、迭代

72:13 Grok Imagine Agent beta:从视频生成走向视频创作工作流

72:29 为什么“生成一分钟视频”是 Agent 任务,而不是单次视频模型任务

73:30 从 Copilot 到 Claude Code:视频创作也会经历 Agent 化

74:17 速度、thinking budget 与 inference infra

75:12 Video Agent 的真正价值:不是模型到头了,而是 harness 和工具链解锁新能力

76:21 AI 模型更懂 AI 模型:未来会有模型专门负责 prompt 和调度生成模型

77:28 为什么确定性工具仍然重要:字幕、排版、精准编辑不必全靠视频模型

78:02 Ethan 的时间判断:年底 Video Agent 会成为大热点

78:20 Production grade 视频:一旦可用于广告和展示,预算会指数级增长

机器人、LLM 与下一阶段研究

78:36 World model 不一定只服务机器人,但机器人会自然成为 AI 可调用的工具

79:12 Physical AI 也许不需要先在真实世界解决,可以先被强视频模型解决

80:10 为什么离开 xAI:想做公司优先级之外的研究,尤其是语言模型方向

81:06 视频模型的瓶颈,正在转向语言模型和 Agent

81:31 未来一年关注什么:模型感知并管理自己的 context

82:00 Context awareness:模型应该知道自己快到上下文上限了

82:30 Context addition / removal / compaction:今天由 harness 做,未来可能被模型吸收

83:59 Self-modifying harness:模型像程序一样,在 test time 给自己编程

85:22 职业路径:从 ResNet 时代的视觉研究,到 FAIR、Cosmos、MoE、xAI

86:44 为什么跨方向并没有想象中困难:训练大模型的原则高度相通

87:33 收尾:xAI 背后还有很多未被讲清楚的层次

🌟 精彩内容

💡 三个月做出 Grok Imagine:速度来自迭代能力

Ethan 回顾了自己加入 xAI 时的状态:没有 infra、没有数据、没有模型,只有几个工程师和一个非常明确的目标。最终团队用三个月发布了 Grok Imagine 0.9。他认为,训练模型最关键的不是某个神奇算法,而是端到端迭代速度:你每天能做多少轮实验,发现多少 bug,修正多少数据和训练 pipeline 的问题。

“我看训练模型这件事时,最重要的其实是,你每天能做多少轮迭代。”

🧠 视频模型的进步,很多来自语言模型

本期最反直觉的观点是:视觉智能很大程度来自语言。Ethan 解释说,视频 diffusion model 本身往往非常字面,它们需要一个更强的语言模型做 prompt rewriting,把用户简单的指令扩展成极其详细的视觉描述。很多图像和视频质量的提升,不是因为 diffusion 模型突然更聪明,而是因为语言模型更会思考、更会写 prompt、更会调用工具。

“我有一个挺大的判断:视觉智能很大程度上其实来自语言,尤其是这些视频模型。”

🌍 World model 是什么:实时、可交互、长时程的视频

Ethan 不试图争论 world model 的唯一标准定义,而是从视频生成角度给出自己的定义:world model 就是实时、可交互、长时程的视频。它要能响应键盘、鼠标、语音输入;要能做到低延迟;还要能持续生成几分钟甚至几小时,并保持角色、声音、物体和事件的一致性。

“在我看来,world model 就是实时、可交互、长时程的视频。”

🧩 长视频的核心难题:不是更长 context,而是会管理 context

视频生成面临巨大的 context 压力。Ethan 提到,Cosmos 中五秒视频就可能有五到六万 token,长视频很容易爆炸。因此,未来的关键不只是硬扩 context length,而是让模型学会动态选择历史信息:什么时候需要完整记住上一秒,什么时候只需要压缩远处历史,什么时候要把某个角色的 reference 拉回来。

“模型应该能够自己选择性地知道,我应该从哪里取 reference。”

🎬 Video Agent 会成为生成式媒体的下一波

Ethan 认为,Video Agent 不是简单地“生成几个片段再拼起来”,而是会像人类创作者一样,使用视频模型、图片编辑工具、视频编辑器、FFmpeg、字幕工具和确定性工具,反复生成、检查、修改、组合,最终做出 production grade 视频。他预测,到年底 Video Agent 会成为一个大热点,一旦生成视频达到广告和展示可用标准,企业预算会快速进入。

“AI 模型更懂 AI 模型。”

🔊 音视频联合生成的难点:时间对齐

Grok Imagine 0.9 被 Ethan 称为第一个大规模部署的音视频联合生成模型。它的难点不只是生成声音,而是让声音、音乐、对白和画面在时间上精确对齐。文本和图像的对齐可以比较松散,但音频和视频必须在每一个时间步上对应,这让数据标注、caption 和模型设计都更加复杂。

“模型必须知道视频和音频之间有基于时间的对齐关系。”

🖥️ Generative UI:未来界面可能直接由模型生成

Ethan 展望了一种未来:如果推理成本足够低,用户界面不一定再由代码写出、浏览器渲染,而可以由 generative model 直接从用户意图生成像素。你可以让 email 像 TikTok 一样呈现,也可以生成没有点赞按钮的 Instagram stories。LLM 和 coding model 负责后端逻辑,diffusion model 成为前端视觉层。

“Generative UI 就是从用户意图直接到像素。”

🧠 LLM 的下一步:感知并管理自己的上下文

离开 xAI 后,Ethan 接下来更关注语言模型方向。他认为,模型未来需要知道自己的 context 状态:什么时候快到上限,什么时候该压缩,什么时候该删除工具调用结果,什么时候该把某些信息重新加入上下文。今天这些工作主要由 Agent harness 的 heuristic 完成,但未来可能会被模型自己吸收。

“启发式工程里的很多东西,最后也会被模型自己吸收进去。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight