📝 本期播客简介
原内容更新时间:2026-06-01
本期节目是一场关于视频生成、世界模型和 Video Agent 的高密度技术访谈。嘉宾 Ethan He 曾在 Nvidia 参与 Cosmos world model,后来加入 xAI,从零参与 Grok Imagine、音视频联合生成、reference video、视频延展和 world model 相关工作。他在节目中复盘了 xAI 如何在短短三个月里,从没有基础设施、没有数据、没有模型的状态,快速做出 Grok Imagine 0.9;也详细解释了视频模型从数据、caption、VAE、diffusion transformer 到 distillation 的完整训练链路。
更重要的是,Ethan 提出了几个非常有判断力的观点:视频模型的很多进步,其实来自语言模型,而不是视频 diffusion 本身;world model 在他看来就是“实时、可交互、长时程的视频”;未来的 Video Agent 会像人类创作者一样,调用视频模型、图像编辑器、FFmpeg 和各种确定性工具,迭代生成真正可用于广告、创作和生产环境的视频内容。这期不仅适合想理解视频生成技术路线的人,也适合想提前看懂 AI 交互界面、生成式媒体和 Agent 未来趋势的听众。
👨💻 本期嘉宾
Ethan He,曾在 Nvidia 参与 Cosmos world model 和 Megatron-LM MoE 等工作,后加入 xAI,参与 Grok Imagine、视频生成、音视频联合生成、reference video、视频延展和 world model 相关研发。他的研究经历横跨计算机视觉、自监督学习、大规模 MoE、视频 diffusion、world model 和 LLM Agent。
⏱️ 时间戳
开场 & 播客简介
从 Cosmos 到 xAI:三个月做出 Grok Imagine
嘉宾登场:Ethan He 与 Latent Space 社区的缘起
为什么离开 Nvidia:视频模型也有 scaling law,需要更大算力
xAI 从零起步:三个月做出 Grok Imagine 0.9
快速迭代的秘密:人才、infra、compute 与低沟通成本
模型质量提升的真相:很多突破来自数据和训练 pipeline 里的小 bug
Coding model 如何改变研究节奏:代码更快,compute 再次成为瓶颈
高压研发文化:算力昂贵,但这是一场马拉松
视频模型是怎么训练出来的
为什么做视频模型之前,通常要先做图像模型
数据从哪里来:人工详细标注与 VLM 生成 synthetic caption
训练视频模型为什么既需要配对数据,也需要无标签数据
VAE / tokenizer:为什么不能直接在像素上训练
Diffusion transformer:从噪声一步步去噪生成图像和视频
图像模型如何 bootstrap 视频模型:语言与图像连接更密集
视频压缩路线:逐帧压缩 vs 时间维度压缩
为什么不用 MP4 token 直接训练:latent space 必须对模型友好
实时性的代价:时间压缩节省 context,但会引入响应延迟
生成式 UI 与世界模型的早期形态
Flipbook:像浏览器一样探索模型想象出的网页
Generative UI:从用户意图直接到像素,而不是先写代码再渲染
Diffusion 前端,确定性后端:未来界面可能如何被重构
人机交互的带宽:人类用语音输出,用视觉输入
NeuroOS:用视频模型模拟操作系统和游戏
从过拟合现有界面,到想象全新交互系统
为什么视频模型能生成训练集中不存在的超自然内容
视频模型的成本、加速与音视频联合生成
视频模型到底有多贵:训练成本接近中等规模 LLM
被低估的成本:视频存储、特征存储、IO 和 egress
训练规模:数十万亿视觉 token、百亿级 active 参数
推理端加速:step distillation 如何把一百步变成几步
Consistency model、GAN 与少步生成的关系
Grok Imagine 0.9:大规模音视频联合生成模型
音频为什么难:speech 更离散,music 更连续
音视频对齐:模型必须理解每一秒声音和画面的关系
时间感:为什么 LLM 本身并不真正感知时间
Ethan 对 World Model 的定义
什么是 world model:实时、可交互、长时程的视频
交互性:键盘、鼠标、语音都可以成为输入模态
实时性:游戏需要毫秒级响应,数字人也要接近两百毫秒
长时程:世界模型不能只生成几秒,而要持续几分钟甚至几小时
视频延展:通往长时程 world model 的第一步
长 context 的挑战:五秒视频就可能有五六万 token
为什么用户喜欢视频延展:它是通往最终目标的中间产品
Reference Video 与动态上下文管理
长视频里的冗余:不是所有历史都需要一直放进 context
Reference video:用角色、物体、场景作为生成条件
为什么 reference 是一种“作弊”,也是一种重要机制
FramePack 与动态 context selection:离当前越远,信息越压缩
LLM 与视频模型共享的问题:context pruning 目前仍高度依赖 heuristic
Continual learning 的可能突破:让模型自己管理上下文
人类注意力的启发:不是记住一切,而是动态拉取相关信息
xAI 文化与生成式视频安全
xAI 被低估的地方:move fast、build、宏大目标和 first principles
如何倒推三个月目标:从数据、训练、人工标注、GPU 周转时间拆解
Elon Musk 的工作方式:非常 hands-on,直接给反馈
Grok Voice:实时语音体验、打断能力和车载场景
生成式视频安全:水印、下架和社交平台治理
SynthID 的局限:论文公开后,水印也可能被反向工程
AI 生成内容越来越难识别:从看手指,到看逻辑是否成立
视觉智能为什么来自语言
核心判断:视觉智能很大程度来自语言模型
Prompt rewriter:视频模型背后的“大脑”
为什么视频 diffusion model 很“字面”:用户说“一只猫”,它可能只生成一只不会动的猫
GPT Image 类模型为什么要“想几分钟”:时间花在推理、重写 prompt 和组织内容上
不同架构路线:独立 LLM + diffusion、omni model、离散图像 token
生成—理解—再生成:omni model 可能如何迭代优化图像
Prompt rewriter 与 diffusion head 不是一回事,但语言侧都在贡献智能
不需要 joint training,光重写 prompt 就能显著提高画面质量
Video Agent:生成式媒体的下一波
Video Agent 的愿景:像人类创作者一样调用工具、编辑、迭代
Grok Imagine Agent beta:从视频生成走向视频创作工作流
为什么“生成一分钟视频”是 Agent 任务,而不是单次视频模型任务
从 Copilot 到 Claude Code:视频创作也会经历 Agent 化
速度、thinking budget 与 inference infra
Video Agent 的真正价值:不是模型到头了,而是 harness 和工具链解锁新能力
AI 模型更懂 AI 模型:未来会有模型专门负责 prompt 和调度生成模型
为什么确定性工具仍然重要:字幕、排版、精准编辑不必全靠视频模型
Ethan 的时间判断:年底 Video Agent 会成为大热点
Production grade 视频:一旦可用于广告和展示,预算会指数级增长
机器人、LLM 与下一阶段研究
World model 不一定只服务机器人,但机器人会自然成为 AI 可调用的工具
Physical AI 也许不需要先在真实世界解决,可以先被强视频模型解决
为什么离开 xAI:想做公司优先级之外的研究,尤其是语言模型方向
视频模型的瓶颈,正在转向语言模型和 Agent
未来一年关注什么:模型感知并管理自己的 context
Context awareness:模型应该知道自己快到上下文上限了
Context addition / removal / compaction:今天由 harness 做,未来可能被模型吸收
Self-modifying harness:模型像程序一样,在 test time 给自己编程
职业路径:从 ResNet 时代的视觉研究,到 FAIR、Cosmos、MoE、xAI
为什么跨方向并没有想象中困难:训练大模型的原则高度相通
收尾:xAI 背后还有很多未被讲清楚的层次
🌟 精彩内容
💡 三个月做出 Grok Imagine:速度来自迭代能力
Ethan 回顾了自己加入 xAI 时的状态:没有 infra、没有数据、没有模型,只有几个工程师和一个非常明确的目标。最终团队用三个月发布了 Grok Imagine 0.9。他认为,训练模型最关键的不是某个神奇算法,而是端到端迭代速度:你每天能做多少轮实验,发现多少 bug,修正多少数据和训练 pipeline 的问题。
“我看训练模型这件事时,最重要的其实是,你每天能做多少轮迭代。”
🧠 视频模型的进步,很多来自语言模型
本期最反直觉的观点是:视觉智能很大程度来自语言。Ethan 解释说,视频 diffusion model 本身往往非常字面,它们需要一个更强的语言模型做 prompt rewriting,把用户简单的指令扩展成极其详细的视觉描述。很多图像和视频质量的提升,不是因为 diffusion 模型突然更聪明,而是因为语言模型更会思考、更会写 prompt、更会调用工具。
“我有一个挺大的判断:视觉智能很大程度上其实来自语言,尤其是这些视频模型。”
🌍 World model 是什么:实时、可交互、长时程的视频
Ethan 不试图争论 world model 的唯一标准定义,而是从视频生成角度给出自己的定义:world model 就是实时、可交互、长时程的视频。它要能响应键盘、鼠标、语音输入;要能做到低延迟;还要能持续生成几分钟甚至几小时,并保持角色、声音、物体和事件的一致性。
“在我看来,world model 就是实时、可交互、长时程的视频。”
🧩 长视频的核心难题:不是更长 context,而是会管理 context
视频生成面临巨大的 context 压力。Ethan 提到,Cosmos 中五秒视频就可能有五到六万 token,长视频很容易爆炸。因此,未来的关键不只是硬扩 context length,而是让模型学会动态选择历史信息:什么时候需要完整记住上一秒,什么时候只需要压缩远处历史,什么时候要把某个角色的 reference 拉回来。
“模型应该能够自己选择性地知道,我应该从哪里取 reference。”
🎬 Video Agent 会成为生成式媒体的下一波
Ethan 认为,Video Agent 不是简单地“生成几个片段再拼起来”,而是会像人类创作者一样,使用视频模型、图片编辑工具、视频编辑器、FFmpeg、字幕工具和确定性工具,反复生成、检查、修改、组合,最终做出 production grade 视频。他预测,到年底 Video Agent 会成为一个大热点,一旦生成视频达到广告和展示可用标准,企业预算会快速进入。
“AI 模型更懂 AI 模型。”
🔊 音视频联合生成的难点:时间对齐
Grok Imagine 0.9 被 Ethan 称为第一个大规模部署的音视频联合生成模型。它的难点不只是生成声音,而是让声音、音乐、对白和画面在时间上精确对齐。文本和图像的对齐可以比较松散,但音频和视频必须在每一个时间步上对应,这让数据标注、caption 和模型设计都更加复杂。
“模型必须知道视频和音频之间有基于时间的对齐关系。”
🖥️ Generative UI:未来界面可能直接由模型生成
Ethan 展望了一种未来:如果推理成本足够低,用户界面不一定再由代码写出、浏览器渲染,而可以由 generative model 直接从用户意图生成像素。你可以让 email 像 TikTok 一样呈现,也可以生成没有点赞按钮的 Instagram stories。LLM 和 coding model 负责后端逻辑,diffusion model 成为前端视觉层。
“Generative UI 就是从用户意图直接到像素。”
🧠 LLM 的下一步:感知并管理自己的上下文
离开 xAI 后,Ethan 接下来更关注语言模型方向。他认为,模型未来需要知道自己的 context 状态:什么时候快到上限,什么时候该压缩,什么时候该删除工具调用结果,什么时候该把某些信息重新加入上下文。今天这些工作主要由 Agent harness 的 heuristic 完成,但未来可能会被模型自己吸收。
“启发式工程里的很多东西,最后也会被模型自己吸收进去。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
