#569. 深入 xAI：三个月打造 Grok Imagine、视频生成与世界模型之争，以及视频智能体

📝 本期播客简介

本期我们克隆了：Latent Space: Inside xAI: Building Grok Imagine in 3 Months, Videogen vs World Models, and Video Agents— Ethan He

原内容更新时间：2026-06-01

本期节目是一场关于视频生成、世界模型和 Video Agent 的高密度技术访谈。嘉宾 Ethan He 曾在 Nvidia 参与 Cosmos world model，后来加入 xAI，从零参与 Grok Imagine、音视频联合生成、reference video、视频延展和 world model 相关工作。他在节目中复盘了 xAI 如何在短短三个月里，从没有基础设施、没有数据、没有模型的状态，快速做出 Grok Imagine 0.9；也详细解释了视频模型从数据、caption、VAE、diffusion transformer 到 distillation 的完整训练链路。

更重要的是，Ethan 提出了几个非常有判断力的观点：视频模型的很多进步，其实来自语言模型，而不是视频 diffusion 本身；world model 在他看来就是“实时、可交互、长时程的视频”；未来的 Video Agent 会像人类创作者一样，调用视频模型、图像编辑器、FFmpeg 和各种确定性工具，迭代生成真正可用于广告、创作和生产环境的视频内容。这期不仅适合想理解视频生成技术路线的人，也适合想提前看懂 AI 交互界面、生成式媒体和 Agent 未来趋势的听众。

👨‍💻 本期嘉宾

Ethan He，曾在 Nvidia 参与 Cosmos world model 和 Megatron-LM MoE 等工作，后加入 xAI，参与 Grok Imagine、视频生成、音视频联合生成、reference video、视频延展和 world model 相关研发。他的研究经历横跨计算机视觉、自监督学习、大规模 MoE、视频 diffusion、world model 和 LLM Agent。

⏱️ 时间戳

00:00 开场 & 播客简介

从 Cosmos 到 xAI：三个月做出 Grok Imagine

02:42 嘉宾登场：Ethan He 与 Latent Space 社区的缘起

04:14 为什么离开 Nvidia：视频模型也有 scaling law，需要更大算力

05:43 xAI 从零起步：三个月做出 Grok Imagine 0.9

06:15 快速迭代的秘密：人才、infra、compute 与低沟通成本

08:23 模型质量提升的真相：很多突破来自数据和训练 pipeline 里的小 bug

08:37 Coding model 如何改变研究节奏：代码更快，compute 再次成为瓶颈

09:54 高压研发文化：算力昂贵，但这是一场马拉松

视频模型是怎么训练出来的

11:46 为什么做视频模型之前，通常要先做图像模型

12:50 数据从哪里来：人工详细标注与 VLM 生成 synthetic caption

14:12 训练视频模型为什么既需要配对数据，也需要无标签数据

15:07 VAE / tokenizer：为什么不能直接在像素上训练

17:08 Diffusion transformer：从噪声一步步去噪生成图像和视频

17:27 图像模型如何 bootstrap 视频模型：语言与图像连接更密集

18:24 视频压缩路线：逐帧压缩 vs 时间维度压缩

18:55 为什么不用 MP4 token 直接训练：latent space 必须对模型友好

20:00 实时性的代价：时间压缩节省 context，但会引入响应延迟

生成式 UI 与世界模型的早期形态

20:51 Flipbook：像浏览器一样探索模型想象出的网页

22:31 Generative UI：从用户意图直接到像素，而不是先写代码再渲染

24:09 Diffusion 前端，确定性后端：未来界面可能如何被重构

25:15 人机交互的带宽：人类用语音输出，用视觉输入

26:15 NeuroOS：用视频模型模拟操作系统和游戏

27:52 从过拟合现有界面，到想象全新交互系统

28:47 为什么视频模型能生成训练集中不存在的超自然内容

视频模型的成本、加速与音视频联合生成

31:05 视频模型到底有多贵：训练成本接近中等规模 LLM

31:52 被低估的成本：视频存储、特征存储、IO 和 egress

33:29 训练规模：数十万亿视觉 token、百亿级 active 参数

34:16 推理端加速：step distillation 如何把一百步变成几步

36:36 Consistency model、GAN 与少步生成的关系

37:48 Grok Imagine 0.9：大规模音视频联合生成模型

38:00 音频为什么难：speech 更离散，music 更连续

40:25 音视频对齐：模型必须理解每一秒声音和画面的关系

41:20 时间感：为什么 LLM 本身并不真正感知时间

Ethan 对 World Model 的定义

43:47 什么是 world model：实时、可交互、长时程的视频

44:03 交互性：键盘、鼠标、语音都可以成为输入模态

45:00 实时性：游戏需要毫秒级响应，数字人也要接近两百毫秒

46:00 长时程：世界模型不能只生成几秒，而要持续几分钟甚至几小时

47:00 视频延展：通往长时程 world model 的第一步

48:00 长 context 的挑战：五秒视频就可能有五六万 token

49:03 为什么用户喜欢视频延展：它是通往最终目标的中间产品

Reference Video 与动态上下文管理

51:24 长视频里的冗余：不是所有历史都需要一直放进 context

52:01 Reference video：用角色、物体、场景作为生成条件

52:46 为什么 reference 是一种“作弊”，也是一种重要机制

54:34 FramePack 与动态 context selection：离当前越远，信息越压缩

55:52 LLM 与视频模型共享的问题：context pruning 目前仍高度依赖 heuristic

56:14 Continual learning 的可能突破：让模型自己管理上下文

57:00 人类注意力的启发：不是记住一切，而是动态拉取相关信息

xAI 文化与生成式视频安全

58:35 xAI 被低估的地方：move fast、build、宏大目标和 first principles

59:30 如何倒推三个月目标：从数据、训练、人工标注、GPU 周转时间拆解

60:12 Elon Musk 的工作方式：非常 hands-on，直接给反馈

61:09 Grok Voice：实时语音体验、打断能力和车载场景

61:56 生成式视频安全：水印、下架和社交平台治理

62:19 SynthID 的局限：论文公开后，水印也可能被反向工程

63:04 AI 生成内容越来越难识别：从看手指，到看逻辑是否成立

视觉智能为什么来自语言

64:31 核心判断：视觉智能很大程度来自语言模型

65:00 Prompt rewriter：视频模型背后的“大脑”

65:40 为什么视频 diffusion model 很“字面”：用户说“一只猫”，它可能只生成一只不会动的猫

66:10 GPT Image 类模型为什么要“想几分钟”：时间花在推理、重写 prompt 和组织内容上

67:07 不同架构路线：独立 LLM + diffusion、omni model、离散图像 token

68:21 生成—理解—再生成：omni model 可能如何迭代优化图像

69:54 Prompt rewriter 与 diffusion head 不是一回事，但语言侧都在贡献智能

70:33 不需要 joint training，光重写 prompt 就能显著提高画面质量

Video Agent：生成式媒体的下一波

71:54 Video Agent 的愿景：像人类创作者一样调用工具、编辑、迭代

72:13 Grok Imagine Agent beta：从视频生成走向视频创作工作流

72:29 为什么“生成一分钟视频”是 Agent 任务，而不是单次视频模型任务

73:30 从 Copilot 到 Claude Code：视频创作也会经历 Agent 化

74:17 速度、thinking budget 与 inference infra

75:12 Video Agent 的真正价值：不是模型到头了，而是 harness 和工具链解锁新能力

76:21 AI 模型更懂 AI 模型：未来会有模型专门负责 prompt 和调度生成模型

77:28 为什么确定性工具仍然重要：字幕、排版、精准编辑不必全靠视频模型

78:02 Ethan 的时间判断：年底 Video Agent 会成为大热点

78:20 Production grade 视频：一旦可用于广告和展示，预算会指数级增长

机器人、LLM 与下一阶段研究

78:36 World model 不一定只服务机器人，但机器人会自然成为 AI 可调用的工具

79:12 Physical AI 也许不需要先在真实世界解决，可以先被强视频模型解决

80:10 为什么离开 xAI：想做公司优先级之外的研究，尤其是语言模型方向

81:06 视频模型的瓶颈，正在转向语言模型和 Agent

81:31 未来一年关注什么：模型感知并管理自己的 context

82:00 Context awareness：模型应该知道自己快到上下文上限了

82:30 Context addition / removal / compaction：今天由 harness 做，未来可能被模型吸收

83:59 Self-modifying harness：模型像程序一样，在 test time 给自己编程

85:22 职业路径：从 ResNet 时代的视觉研究，到 FAIR、Cosmos、MoE、xAI

86:44 为什么跨方向并没有想象中困难：训练大模型的原则高度相通

87:33 收尾：xAI 背后还有很多未被讲清楚的层次

🌟 精彩内容

💡 三个月做出 Grok Imagine：速度来自迭代能力

Ethan 回顾了自己加入 xAI 时的状态：没有 infra、没有数据、没有模型，只有几个工程师和一个非常明确的目标。最终团队用三个月发布了 Grok Imagine 0.9。他认为，训练模型最关键的不是某个神奇算法，而是端到端迭代速度：你每天能做多少轮实验，发现多少 bug，修正多少数据和训练 pipeline 的问题。

“我看训练模型这件事时，最重要的其实是，你每天能做多少轮迭代。”

🧠 视频模型的进步，很多来自语言模型

本期最反直觉的观点是：视觉智能很大程度来自语言。Ethan 解释说，视频 diffusion model 本身往往非常字面，它们需要一个更强的语言模型做 prompt rewriting，把用户简单的指令扩展成极其详细的视觉描述。很多图像和视频质量的提升，不是因为 diffusion 模型突然更聪明，而是因为语言模型更会思考、更会写 prompt、更会调用工具。

“我有一个挺大的判断：视觉智能很大程度上其实来自语言，尤其是这些视频模型。”

🌍 World model 是什么：实时、可交互、长时程的视频

Ethan 不试图争论 world model 的唯一标准定义，而是从视频生成角度给出自己的定义：world model 就是实时、可交互、长时程的视频。它要能响应键盘、鼠标、语音输入；要能做到低延迟；还要能持续生成几分钟甚至几小时，并保持角色、声音、物体和事件的一致性。

“在我看来，world model 就是实时、可交互、长时程的视频。”

🧩 长视频的核心难题：不是更长 context，而是会管理 context

视频生成面临巨大的 context 压力。Ethan 提到，Cosmos 中五秒视频就可能有五到六万 token，长视频很容易爆炸。因此，未来的关键不只是硬扩 context length，而是让模型学会动态选择历史信息：什么时候需要完整记住上一秒，什么时候只需要压缩远处历史，什么时候要把某个角色的 reference 拉回来。

“模型应该能够自己选择性地知道，我应该从哪里取 reference。”

🎬 Video Agent 会成为生成式媒体的下一波

Ethan 认为，Video Agent 不是简单地“生成几个片段再拼起来”，而是会像人类创作者一样，使用视频模型、图片编辑工具、视频编辑器、FFmpeg、字幕工具和确定性工具，反复生成、检查、修改、组合，最终做出 production grade 视频。他预测，到年底 Video Agent 会成为一个大热点，一旦生成视频达到广告和展示可用标准，企业预算会快速进入。

“AI 模型更懂 AI 模型。”

🔊 音视频联合生成的难点：时间对齐

Grok Imagine 0.9 被 Ethan 称为第一个大规模部署的音视频联合生成模型。它的难点不只是生成声音，而是让声音、音乐、对白和画面在时间上精确对齐。文本和图像的对齐可以比较松散，但音频和视频必须在每一个时间步上对应，这让数据标注、caption 和模型设计都更加复杂。

“模型必须知道视频和音频之间有基于时间的对齐关系。”

🖥️ Generative UI：未来界面可能直接由模型生成

Ethan 展望了一种未来：如果推理成本足够低，用户界面不一定再由代码写出、浏览器渲染，而可以由 generative model 直接从用户意图生成像素。你可以让 email 像 TikTok 一样呈现，也可以生成没有点赞按钮的 Instagram stories。LLM 和 coding model 负责后端逻辑，diffusion model 成为前端视觉层。

“Generative UI 就是从用户意图直接到像素。”

🧠 LLM 的下一步：感知并管理自己的上下文

离开 xAI 后，Ethan 接下来更关注语言模型方向。他认为，模型未来需要知道自己的 context 状态：什么时候快到上限，什么时候该压缩，什么时候该删除工具调用结果，什么时候该把某些信息重新加入上下文。今天这些工作主要由 Agent harness 的 heuristic 完成，但未来可能会被模型自己吸收。

“启发式工程里的很多东西，最后也会被模型自己吸收进去。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight