模型即产品的时代，和智能的交互，是极简和动态的相互理解过程。

Part1:

欢迎大家收听SenseAI播客第二期！我是主理人之一，VC投资人Yihao。大模型的第一波浪潮，已经充分展现了它的力量，过亿用户证明了智能带来的巨大供需差；也让我们更期待未来新硬件，Agent，智能网络能带来的巨大变革和机会。

然而创业者和投资人也在适应新技术浪潮中痛苦和成长，看到的应用机会被模型本身的边缘扩张吞噬，找到的场景被已有的行业巨头数据碾压，生成的力量不足以改变现有workflow中长年累月的功能和频率堆叠，巨头的算力和人才抢夺，长期资产+信贷双弱周期和反全球化带来的资本寒冬，AI创业虽然敞开大门，却又艰难险阻。

迷雾中总是透出曙光，全球新一代AI独角兽中，除了大模型以外，Infra、安全、图片生成、视频生成脱颖而出，而这其中，互联网时代的收割王者，视频生成无疑是最有潜力的赛道之一。

SenseAI一直非常关注视频生成方向学术和产业的进展，近期Google发布了名为 VideoPoet 的大语言模型，可以文生视频、图像生视频，又能风格迁移，视频转语音，动作生成丰富性和流畅度很惊艳，被很多人认为是革命性zero-shot视频生成工具。

本期播客特邀VideoPoet的作者之一于力军同学作为嘉宾，于同学是卡内基梅隆大学人工智能博士生，Google学生研究员，主要研究方向是多模态大模型和视频生成，在23年10月作为一作发布了MAGVIT-v2，让语言模型第一次在标志性的ImageNet基准上击败扩散模型，与我们一起分享他对LLM和Diffusion，视频生成的难点和未来，以及应用前景的深刻思考和洞见。我还请来了我的孪生兄弟Yishuai，Google机器学习工程师，来提出更好的技术思考探索。

核心观点总结如下：

● 对比用LLM架构和Diffusion架构的视频生成模型，视觉质量上可能两者会逐渐饱和，但在未来逻辑一致性上LLM架构可能会比Diffusion类型的更好。两个技术也很可能相互融合，（比如LLM作为latent空间而用diffusion做高质量生成）

● VideoPoet一个巨大的创新格局在于把多模态的输入转变成LLM类模型可以接受的token，未来LLM的发展进化，VideoPoet都可以利用并提升在视频生成上

● Tokenizer是VideoPoet中的重要模块，它不仅更高效而统一的表达了图片视频，同时也带来了很多产品可能（视频压缩，理解，补图，变换风格）。Tokenizer仍然有发展空间，并且会有更多使用场景，任何表达图象视频类的模型产品都可以利用tokenizer带来更好的性能提升（推荐了解MAGVIT-v2）

● 核心模型对原始世界的理解决定着未来视频内容的丰富度和合理性，核心模型学习的方式甚至可以不局限于语言类，但目前认为，核心模型对整个世界的理解是视频内容变强突破的路径

● 使用LLM作为核心模型也带来了发展方向的展望：比如未来强大基础模型在少样本零样本情况下生成的质量，和小代价的适应学习完成新任务。同时生成成本速度也会不断改进，来产生更长更高画质的视频

● 未来视频生成是混合动态的：拍摄不会被取代，依然是重要素材的来源，但生成是很好的补充、延展、想象具像化；思考决定行动，VideoPoet的设计就是多模态输入，多任务集合的，任务之间也可以相互补偿帮助模型更好理解视频，也说明视频生成模型还在突破上限的通道中

● 模型即产品：AI应该在人类创作和具像化过程中的每一步去适应人类，辅助人类，这个前提就是模型具备了多模态输入能力和下游生成编辑能力的最小单元，人类要做的事是1）按自己最擅长和自由的方式调用模型，2）提供好的创意和审美

● 视频生成交互：和模型的交互是极简和动态的，文字表达稀疏和宏观的信息，图片提供细节的guidance，在任意时间维度和生成状态中，都可以灵活的输入和编辑，模型会自己去理解和生成（这给在试图固化流程和操作面板的PM提供了不同的视角）

● 短视频先行：消费侧需求时长更短，质量要求更灵活，追求快和重点focus，同时供给侧，受制于现有算法架构和算力消耗，ROI还未商业可行；内容品类上，动漫动画，自然风光，教育方向看好

期待于力军博士更多前沿突破的研究，感兴趣的创业者和研究者，可以直接或通过SenseAI联系于力军博士，探索各类合作的潜在机会。（SenseAI Yihao wechat： liyihao084714）

Part2:

1. 总览（General）

(1:09) 嘉宾于力军博士介绍个人学术背景，过往的研究方向
(01:30) 于力军博士长期研究方向和Google研究组情况

2. 技术架构（Technical Architecture）

(02:30) LLM和Diffusion模型在视频生成上各自的潜力和优势，未来的趋势

(04:35) VideoPoet的架构设计
(06:15) LLM基于一个多模态词汇表进行训练能够生成高质量的视频，LLM提供的价值，和对于model的选择

(07:55)如何选择tokenizer及其原因和优势,未来在tokenizer上还可能会尝试哪些
(11:10) MAGVIT 这个tokenizer是否可以用在未来任何图形encoder的地方？Diffusion使用tokenizer的可能性

(13:30）世界模型的概念，对环境和物体交互的基础理解，能否解决生成视频的动作丰富性和合理性

(16:07) Super resolution是否每种视频生成模型都必须使用的；目前这个方面可探索的空间大小，通用性，对LLM和diffusion类型是否公平

(18:27)VideoPoet的数据收集和处理

(19:55) 模型在社会责任和公平性上做出的平衡

(21:17) VideoPoet的下一步，会在哪些结构，和性能上持续优化

(23:45)视频生成的文艺复兴时期是否要到来？现有架构下的scaling就是解决方案，还是短期还有新架构颠覆的机会

3. 应用思考（Application Thinking）

(24:55) 视频生成，会彻底颠覆人们基于拍摄的原有方式，还是会成为某种补充和延展

(26:00)下游多任务适应的背后，对应用场景和功能有怎样的理解

(29:17)模型即应用，理想中的视频交互方式会是怎样的

(31:40)视频消费端有长视频、中视频、短视频，各自的平台有着不一样的用户基数、时常和商业模式，最先应用上视频生成模型的可能会是哪一个

(32:50)视频生成在短视频方向的重视，是因为技术限制，还是商业价值

(34:43) 哪些内容类型更适合使用生成技术？比如动漫动画，电商广告

(36:40)怎么看待竞争，尤其巨头在数据和算力上的巨大优势。VideoPoet这样强大的模型如果开源出来，是否能帮助一些人找到自己的切入点