EP27｜别只生成视频，让 AI 学会导演 - 信号转译

视频 AI 的下一步，可能不是“生成得更真”，而是开始像导演一样完成制作。

这期我们从 xAI Grok Imagine 的一线经验聊起：为什么视频生成会从一次性输出，走向能规划、生成、编辑、检查和交付的 video agent；以及这件事对创作者、产品团队和创业者意味着什么。

本期会聊到：

00:04 为什么视频 AI 的下一步不只是画面更真，而是 AI 开始承担“导演”和制作流程；

00:59 Ethan He 从 NVIDIA Cosmos 到 xAI Grok Imagine 的背景，以及几个月从零搭建视频模型团队说明了什么；

01:48 为什么很多视频模型的“智能”其实来自语言模型、prompt rewriting 和规划能力；

03:03 video agent 会如何像 coding agent 一样，从一次性输出变成规划、生成、编辑、评估、再生成；

04:06 为什么未来的视频 AI 会同时调用生成模型、剪辑工具、字幕工具和 FFmpeg，而不是所有事都交给一个模型；

05:20 视频模型真正贵在哪里：GPU 之外，还有存储、数据读写、网络传输和数据管线；

06:32 视频压缩和实时交互之间的冲突，以及 world model 为什么不是“更长的视频模型”；

07:32 生成式 UI 的想象：从用户意图直接到像素，界面可能变成临时生成的个性化前端；

08:40 对国内创作者和产品团队的启发：不要只做生成按钮，要做完整 workflow；

09:44 video agent 为什么会更贵，以及什么时候企业预算才会真正进来；

10:44 为什么视频 AI 的瓶颈会把我们重新带回 LLM、上下文管理和 agent harness；

11:42 本期核心判断：下一代视频 AI，不是更会变魔术，而是更会完成制作。

核心判断：

视频生成会继续变真、变快、变便宜；但真正改变行业的，可能是视频从一次性输出，变成一个可规划、可编辑、可验证、可交付的 agent 工作流。

来源说明

本期参考公开访谈与资料整理，主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-01 发布的 Ethan He 访谈：Why Video Agent models are next — Ethan He, xAI Grok Imagine。内容为中文导读、摘要与评论，不是原节目逐字翻译，也不替代原节目。