视频 AI 的下一步,可能不是“生成得更真”,而是开始像导演一样完成制作。
这期我们从 xAI Grok Imagine 的一线经验聊起:为什么视频生成会从一次性输出,走向能规划、生成、编辑、检查和交付的 video agent;以及这件事对创作者、产品团队和创业者意味着什么。
本期会聊到:
为什么视频 AI 的下一步不只是画面更真,而是 AI 开始承担“导演”和制作流程;
Ethan He 从 NVIDIA Cosmos 到 xAI Grok Imagine 的背景,以及几个月从零搭建视频模型团队说明了什么;
为什么很多视频模型的“智能”其实来自语言模型、prompt rewriting 和规划能力;
video agent 会如何像 coding agent 一样,从一次性输出变成规划、生成、编辑、评估、再生成;
为什么未来的视频 AI 会同时调用生成模型、剪辑工具、字幕工具和 FFmpeg,而不是所有事都交给一个模型;
视频模型真正贵在哪里:GPU 之外,还有存储、数据读写、网络传输和数据管线;
视频压缩和实时交互之间的冲突,以及 world model 为什么不是“更长的视频模型”;
生成式 UI 的想象:从用户意图直接到像素,界面可能变成临时生成的个性化前端;
对国内创作者和产品团队的启发:不要只做生成按钮,要做完整 workflow;
video agent 为什么会更贵,以及什么时候企业预算才会真正进来;
为什么视频 AI 的瓶颈会把我们重新带回 LLM、上下文管理和 agent harness;
本期核心判断:下一代视频 AI,不是更会变魔术,而是更会完成制作。
核心判断:
视频生成会继续变真、变快、变便宜;但真正改变行业的,可能是视频从一次性输出,变成一个可规划、可编辑、可验证、可交付的 agent 工作流。
来源说明
本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-01 发布的 Ethan He 访谈:Why Video Agent models are next — Ethan He, xAI Grok Imagine。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。

