OnBoard! 终于成立听友群啦!新年新气象,加入Onboard听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!
---------------
这是Onboard 2024年姗姗来迟的第一期更新,给大家拜个晚年!这次我们讨论的话题,就是这周AI领域最让人激动的一个重磅炸弹:OpenAI 发布了文生视频模型 Sora!仅仅根据提示词,就可以生成60秒的视频,连贯、高清,有丰富运镜,甚至符合大部分物理规律。
未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻?Sora 的真正创新是什么?scaling law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?
Hello World, who is OnBoard!?
如此重要的话题,我们当然要邀请来真正训练过视频大模型的专家和一线从业者,才能探究到本质。这次的深度解读,两个视角,长达三个小时,我们分成两个部分放送。
今天的第一部分,专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型, 由 Google Deepmind 2023年12月发布,8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。 另一位嘉宾是爱丁堡大学phd的 Yao Fu,他在LLM,尤其是 scaling law 领域的深度研究,跟专注做视频生成的 Lijun 的视角,形成非常有意思的补充和碰撞。
即将放送的第二部分,我们邀请到真格基金管理合伙人,也是AI领域研究非常深度的投资人戴雨森,还有真格基金EIR,曾经的AI创业者,Peak。从投资人和创业者的视角,聊聊他们眼里Sora 对于创业公司意味着什么。
本期嘉宾们都是在美国工作生活,难免夹杂很多英文技术术语。show notes 中会有注释,虽然烧脑但是绝对值得,不接受抱怨。
嗯别忘了,添加小助手,Nine_tunes, 加入我们的听众群哈,等你来!满满的干货来袭,Enjoy!
嘉宾介绍
Lijun Yu(推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。
Yao Fu(推特 @@Francis_YAO_), 爱丁堡大学博士生,北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。
OnBoard! 主持:Monica, 美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
03:21 嘉宾自我介绍,如何进入视频生成领域,快评:Sora 的 demo 中,哪一个让你印象最深刻?为什么?
10:52 VideoPoet 作者解读 Sora: 核心组成部分,重要创新,与以往 trasnformer + diffusion 工作的异同
14:52 为什么最让人意料之外的视频长度和高分辨率?与LLM中处理 long context 的方式有什么相通之处?
18:35 为什么模型中的 compression(压缩算法) 这么重要?Sora 在压缩上的创新是什么?
24:05 视频生成模型中的 transformer 架构,与多模态LLM中的架构有什么异同?
27:10 如何理解Sora 展现出的涌现能力?为什么说 Sora 在理解能力上会有局限性?
29:39 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势?难点和可能诞生的机会是什么?
35:01 Sora 真的具备了理解世界的能力吗?从视频生成和 LLM 角度,如何理解世界模型?
49:19 如何估算 Sora 的大小和可能需要的计算量?这种模型形态未来还有什么增长空间?有什么局限?
71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点?
74:16 训练数据:VideoPoet 有哪些经验?Sora 可能有哪些创新?合成数据的价值和局限?
88:55 快问快答(虽然也没有很快!)Sora 改变了你什么观点?大家对 Sora 有什么常见的误解、高估和低估?如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人?2024年最期待发生什么?
重点词汇
- Latent Diffusion Transformer
- Stable Diffusion
- Autoregression model
- Latent space
- Context window
- Consistency model
- Sparse attention
- In-context learning
- Model serving
我们提到的论文
- VideoPoet: A large language model for zero-shot video generation, by Lijun Yu
- Scalable Diffusion Models with Transformer, by William Peebles, Saining Xie
- WALT: Photorealistic Video Generation with Diffusion Models, by Lijun Yu
- World Model on Million-Length Video And Language With RingAttention
- Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
- ViViT: A Video Vision Transformer
欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy) - Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人 | 即刻:莫妮卡同学
点赞、评论、转发,是对我们最好的鼓励!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。
最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!
1. Sora 的创新在什么地方?
- 从结果来看,和其他的视频生成模型(如 VideoPoet 等)相比,Sora 的独特之处在于时长以及分辨率。
- Sora 的效果好,最重要的贡献应该来源于它高质量的数据集。数据 curation 的重要性极高(有多少人工就有多少智能),一方面要暴力上量,另一方面也要保质,包括视频的审美要高、特效要少、要符合物理规律等等。Youtube、TikTok、社交媒介上的数据有大量垃圾,不好用。优质的数据可能来自于 Shutterstock 这种优质数据源,影视作品,以及 Game Engine 的数据,但越优质的数据往往版权风险越大。Game engine 的数据某种意义上算是合成数据,它严格符合物理规则,但其他视频数据集也是严格符合物理规则的,因此嘉宾认为Game engine 数据的作用没有在 LLM 的自然语言数据集中增加 coding 数据那么大。
- 技术层面上,Sora 的创新主要在于做了dynamic resolution training,支持多个维度上的position encoding,简化了数据集的预处理,支持更多样化的数据和 task。但总的来说,Sora 还是大力出奇迹的思路,从学术角度来看想法比较“朴素”,导致其论文当年被顶会拒收。
- 对 Sora 规模的估计:嘉宾估计可能不仅是 3B,或许是 10B 左右。尽管模型参数量较小,但由于context length较长(1 分钟的视频可能对应 1 million 的 tokens),对应的算力需求甚至可能比 LLM 更高。在做 inference 时,嘉宾猜测生成一个 1 分钟视频可能需要 20 分钟左右的时间。总之都是算力、数据、参数量之间的 trade off。
2. 我觉得最有意思的,是 Sora 和 GPT 的比较,以及是否有可能出现一个 Sora + GPT 的多模态通用大模型?
- GPT 用的是 Autoregressive,而 Sora 用的是Diffusion,这两种思想本质上都是试图从 corrupted data 出发,去 recover full data,去 predict target data 的 likelihood。二者的区别在于数据空间的不同,前者是离散的,而后者是连续的,因此 diffusion 做 curve fitting 的难度要显著低,只需要相对小的模型和较低的 threshold 就可以做得足够好。当模型足够大的时候,二者的效果都能做好,但效率上依旧是 diffusion 更高一些。
- 目前看起来,这个多模态的通用模型很可能是一个基于Transformer架构的、结合了 GPT 的 Autoregressive 和 Sora 的 Diffusion 两种思路的、可以被 scaling up 的模型,或许是 MOE 之类的形态。这个新的模型既可以有 GPT 的 sequence modeling 的 flexibility 以及 general interface,同时又支持对图像、视频这类高维数据的 tokenize 以及并行的prediction。由于 Sora 已经支持了 transformer,接下来需要做的只是如何定义 model 的 input和output(不同模态的数据在density上差距很大,压缩率不同,以及如何融合等等),以及如何进行训练的问题。最终的多模态模型规模一定会显著高于目前的 LLM。嘉宾认为这是必然,也是最让人期待的。
3. Sora 的下一步挑战是什么?会颠覆世界吗?被追上需要多久?
- 模型的能力被媒体过份渲染了,但实际上还是 too early。不知道可用性如何,包括输出的 diversity 和 success rate,可能被高估了。
- 实际部署的挑战。Sora 在训练中可能 leverage了很长的Long Context 窗口,但如果最终公开发布,要支持大规模的调用,会是一个比较大的挑战。但一个较好的地方在于 diffusion 相比于 autoregressive 模型天然就是一个更吃 computer 而不是更吃 memory 的算法,所以它的算力利用率和性价比相比 LLM 会更高。
- Sora这种路线也可以实现这种in-context learning,但挑战依旧在于context length可能会过长,很难用多个视频作为 prompt 的 prefix。
- 像Google、Meta这种大公司,如果想要追,投入资源,半年之内肯定能做出来。如果小公司可能需要一年左右,单纯为了做产品的话,感觉不那么值得。
(1/2)