EP 45. 深度解读 OpenAI Sora（上）：硅谷AI研究员眼里的技术创新、局限，多模态融合与世界模型

112分钟 ·2个月前

27488

OnBoard! 终于成立听友群啦！新年新气象，加入Onboard听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加小助手微信，Nine_tunes, 发送你的姓名、公司和职位，就可以获得进群链接。期待你来！

---------------

这是Onboard 2024年姗姗来迟的第一期更新，给大家拜个晚年！这次我们讨论的话题，就是这周AI领域最让人激动的一个重磅炸弹：OpenAI 发布了文生视频模型 Sora！仅仅根据提示词，就可以生成60秒的视频，连贯、高清，有丰富运镜，甚至符合大部分物理规律。

未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻？Sora 的真正创新是什么？scaling law 的暴力美学背后，还有哪些容易被忽略的技术细节？Sora 对于产生我们期望的世界模型意味着什么？

Hello World, who is OnBoard!?

如此重要的话题，我们当然要邀请来真正训练过视频大模型的专家和一线从业者，才能探究到本质。这次的深度解读，两个视角，长达三个小时，我们分成两个部分放送。

今天的第一部分，专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型，由 Google Deepmind 2023年12月发布，8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。另一位嘉宾是爱丁堡大学phd的 Yao Fu，他在LLM，尤其是 scaling law 领域的深度研究，跟专注做视频生成的 Lijun 的视角，形成非常有意思的补充和碰撞。

即将放送的第二部分，我们邀请到真格基金管理合伙人，也是AI领域研究非常深度的投资人戴雨森，还有真格基金EIR，曾经的AI创业者，Peak。从投资人和创业者的视角，聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活，难免夹杂很多英文技术术语。show notes 中会有注释，虽然烧脑但是绝对值得，不接受抱怨。

嗯别忘了，添加小助手，Nine_tunes, 加入我们的听众群哈，等你来！满满的干货来袭，Enjoy!

嘉宾介绍

Lijun Yu（推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士，聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu（推特 @@Francis_YAO_）, 爱丁堡大学博士生，北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型，包括数据工程，复杂推理长上下文，以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持：Monica, 美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

03:21 嘉宾自我介绍，如何进入视频生成领域，快评：Sora 的 demo 中，哪一个让你印象最深刻？为什么？

10:52 VideoPoet 作者解读 Sora: 核心组成部分，重要创新，与以往 trasnformer + diffusion 工作的异同

14:52 为什么最让人意料之外的视频长度和高分辨率？与LLM中处理 long context 的方式有什么相通之处？

18:35 为什么模型中的 compression（压缩算法）这么重要？Sora 在压缩上的创新是什么？

24:05 视频生成模型中的 transformer 架构，与多模态LLM中的架构有什么异同？

27:10 如何理解Sora 展现出的涌现能力？为什么说 Sora 在理解能力上会有局限性？

29:39 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势？难点和可能诞生的机会是什么？

35:01 Sora 真的具备了理解世界的能力吗？从视频生成和 LLM 角度，如何理解世界模型？

49:19 如何估算 Sora 的大小和可能需要的计算量？这种模型形态未来还有什么增长空间？有什么局限？

71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点？

74:16 训练数据：VideoPoet 有哪些经验？Sora 可能有哪些创新？合成数据的价值和局限？

88:55 快问快答（虽然也没有很快！）Sora 改变了你什么观点？大家对 Sora 有什么常见的误解、高估和低估？如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人？2024年最期待发生什么？

重点词汇

Latent Diffusion Transformer

Stable Diffusion

Autoregression model

Latent space

Context window

Consistency model

Sparse attention

In-context learning

Model serving

我们提到的论文

VideoPoet: A large language model for zero-shot video generation, by Lijun Yu

Scalable Diffusion Models with Transformer, by William Peebles, Saining Xie

WALT: Photorealistic Video Generation with Diffusion Models, by Lijun Yu

World Model on Million-Length Video And Language With RingAttention

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

ViViT: A Video Vision Transformer

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy) - Monica：美元VC投资人，前 AWS 硅谷团队+AI创业公司打工人 | 即刻：莫妮卡同学

点赞、评论、转发，是对我们最好的鼓励！如果你用 Apple Podcasts 收听，也请给我们一个五星好评，这对我们非常重要。

最后！快来加入Onboard！听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加小助手微信，Nine_tunes, 发送你的姓名、公司和职位，就可以获得进群链接。期待你来！

展开Show Notes

Diiiiiiiii

2024.2.22

嘉宾质量很高，内容比较硬核，一些 key takeaways:

1. Sora 的创新在什么地方？

- 从结果来看，和其他的视频生成模型（如 VideoPoet 等）相比，Sora 的独特之处在于时长以及分辨率。

- Sora 的效果好，最重要的贡献应该来源于它高质量的数据集。数据 curation 的重要性极高（有多少人工就有多少智能），一方面要暴力上量，另一方面也要保质，包括视频的审美要高、特效要少、要符合物理规律等等。Youtube、TikTok、社交媒介上的数据有大量垃圾，不好用。优质的数据可能来自于 Shutterstock 这种优质数据源，影视作品，以及 Game Engine 的数据，但越优质的数据往往版权风险越大。Game engine 的数据某种意义上算是合成数据，它严格符合物理规则，但其他视频数据集也是严格符合物理规则的，因此嘉宾认为Game engine 数据的作用没有在 LLM 的自然语言数据集中增加 coding 数据那么大。

- 技术层面上，Sora 的创新主要在于做了dynamic resolution training，支持多个维度上的position encoding，简化了数据集的预处理，支持更多样化的数据和 task。但总的来说，Sora 还是大力出奇迹的思路，从学术角度来看想法比较“朴素”，导致其论文当年被顶会拒收。

- 对 Sora 规模的估计：嘉宾估计可能不仅是 3B，或许是 10B 左右。尽管模型参数量较小，但由于context length较长（1 分钟的视频可能对应 1 million 的 tokens），对应的算力需求甚至可能比 LLM 更高。在做 inference 时，嘉宾猜测生成一个 1 分钟视频可能需要 20 分钟左右的时间。总之都是算力、数据、参数量之间的 trade off。

2. 我觉得最有意思的，是 Sora 和 GPT 的比较，以及是否有可能出现一个 Sora + GPT 的多模态通用大模型？

- GPT 用的是 Autoregressive，而 Sora 用的是Diffusion，这两种思想本质上都是试图从 corrupted data 出发，去 recover full data，去 predict target data 的 likelihood。二者的区别在于数据空间的不同，前者是离散的，而后者是连续的，因此 diffusion 做 curve fitting 的难度要显著低，只需要相对小的模型和较低的 threshold 就可以做得足够好。当模型足够大的时候，二者的效果都能做好，但效率上依旧是 diffusion 更高一些。

- 目前看起来，这个多模态的通用模型很可能是一个基于Transformer架构的、结合了 GPT 的 Autoregressive 和 Sora 的 Diffusion 两种思路的、可以被 scaling up 的模型，或许是 MOE 之类的形态。这个新的模型既可以有 GPT 的 sequence modeling 的 flexibility 以及 general interface，同时又支持对图像、视频这类高维数据的 tokenize 以及并行的prediction。由于 Sora 已经支持了 transformer，接下来需要做的只是如何定义 model 的 input和output（不同模态的数据在density上差距很大，压缩率不同，以及如何融合等等），以及如何进行训练的问题。最终的多模态模型规模一定会显著高于目前的 LLM。嘉宾认为这是必然，也是最让人期待的。

3. Sora 的下一步挑战是什么？会颠覆世界吗？被追上需要多久？

- 模型的能力被媒体过份渲染了，但实际上还是 too early。不知道可用性如何，包括输出的 diversity 和 success rate，可能被高估了。

- 实际部署的挑战。Sora 在训练中可能 leverage了很长的Long Context 窗口，但如果最终公开发布，要支持大规模的调用，会是一个比较大的挑战。但一个较好的地方在于 diffusion 相比于 autoregressive 模型天然就是一个更吃 computer 而不是更吃 memory 的算法，所以它的算力利用率和性价比相比 LLM 会更高。

- Sora这种路线也可以实现这种in-context learning，但挑战依旧在于context length可能会过长，很难用多个视频作为 prompt 的 prefix。

- 像Google、Meta这种大公司，如果想要追，投入资源，半年之内肯定能做出来。如果小公司可能需要一年左右，单纯为了做产品的话，感觉不那么值得。

（1/2）

莫妮卡同学

:课代表你好❤️❤️❤️

X沉浸学习版:感激涕零

Diiiiiiiii

2024.2.22

（2/2） 4. Sora 是所谓的“世界模型”吗？

- 从一个 high-level 来看，嘉宾认为是的，以为 sora 能够生成符合大部分物理规律的视频，代表它在某些 latent space 的内隐维度上一定理解了一部分现象的合理性，然而在微观层面上，它毕竟给出的只是某种基于观察和统计的概率分布，而不是牛顿三定律或者质能方程（又或者它总结出来了但无法用人类语言表述出来也说不定）。所以，不能从一个物理引擎的方式去理解 Sora 的所谓“world simulator”，和 LLM 一样，它更像是一种对世界的压缩。但不排除随着未来模型的 scaling，它的精确度越来越高。

5. 个人觉得有趣的点：如何从人工智能角度，理解费曼所说的，“What I cannot create，I do not understand”？

- 这个很有趣。从 AI 的角度来看，因为我们实际上已经 create 出来了很多尚未 understand 的东西（李飞飞的“前牛顿时代论”）。人工智能的演进通常很违反人类直觉，比如视频生成的进展先于视频理解，比如GPT4 已经具备一定智能，但依旧不知道原理如何比如先被替代的可能是脑力劳动而不是体力劳动，等等。只能说我们的直觉被证明是错的。

- 但费曼说的或许也没错，因为他并没有说“What I cannot understand，I do not create”（这句话并非其原命题或逆否命题）。

墨菲_Ylmj:我说穆帅最近怎么下课了，研究起sora了。

bh1530:非常感谢！（我就知道拖一天再听是对的