EP27|别只生成视频,让 AI 学会导演信号转译

EP27|别只生成视频,让 AI 学会导演

13分钟 ·
播放数2
·
评论数0

视频 AI 的下一步,可能不是“生成得更真”,而是开始像导演一样完成制作。

这期我们从 xAI Grok Imagine 的一线经验聊起:为什么视频生成会从一次性输出,走向能规划、生成、编辑、检查和交付的 video agent;以及这件事对创作者、产品团队和创业者意味着什么。

本期会聊到:

00:04 为什么视频 AI 的下一步不只是画面更真,而是 AI 开始承担“导演”和制作流程;

00:59 Ethan He 从 NVIDIA Cosmos 到 xAI Grok Imagine 的背景,以及几个月从零搭建视频模型团队说明了什么;

01:48 为什么很多视频模型的“智能”其实来自语言模型、prompt rewriting 和规划能力;

03:03 video agent 会如何像 coding agent 一样,从一次性输出变成规划、生成、编辑、评估、再生成;

04:06 为什么未来的视频 AI 会同时调用生成模型、剪辑工具、字幕工具和 FFmpeg,而不是所有事都交给一个模型;

05:20 视频模型真正贵在哪里:GPU 之外,还有存储、数据读写、网络传输和数据管线;

06:32 视频压缩和实时交互之间的冲突,以及 world model 为什么不是“更长的视频模型”;

07:32 生成式 UI 的想象:从用户意图直接到像素,界面可能变成临时生成的个性化前端;

08:40 对国内创作者和产品团队的启发:不要只做生成按钮,要做完整 workflow;

09:44 video agent 为什么会更贵,以及什么时候企业预算才会真正进来;

10:44 为什么视频 AI 的瓶颈会把我们重新带回 LLM、上下文管理和 agent harness;

11:42 本期核心判断:下一代视频 AI,不是更会变魔术,而是更会完成制作。

核心判断:

视频生成会继续变真、变快、变便宜;但真正改变行业的,可能是视频从一次性输出,变成一个可规划、可编辑、可验证、可交付的 agent 工作流。

来源说明

本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-01 发布的 Ethan He 访谈:Why Video Agent models are next — Ethan He, xAI Grok Imagine。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。