深度拆解 Sora：技术的惊喜与失望，「世界模型」的可能与想象｜串台 OnBoard! - 此话当真

距离 OpenAI 公开发布文生视频大模型「Sora」已过去十多天，但 Sora 引发的轰动与热议还远未平息。在上一期节目中，我们从身处一线的创业者、资深投资人视角出发，探讨了其背后的商业洞察与技术创新。

这一次，我们邀请到了两位硅谷顶尖 AI 研究员参与探讨，希望能从技术根源出发，理解和把握潮流本质。硬核科技，极致烧脑，准备好接受挑战了吗~

在本期节目中，我们还讨论了 Sora 的真正创新与局限是什么？Scaling Law 的暴力美学背后，还有哪些容易被忽略的技术细节？Sora对于产生我们期望的世界模型意味着什么？

【主持人】

谢岩真格基金投资副总裁

【嘉宾】

Lijun Yu，卡内基梅隆大学人工智能领域的博士生，北京大学本科。CMU 导师是Alexander Hauptmann 博士，聚焦于多媒体的研究。曾在 Google Deepmind 工作。

Yao Fu，爱丁堡大学博士生，北京大学本科，哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型，包括数据工程，复杂推理长上下文，以及模型背后的科学原理。开源社区 LLaMafia 创建人。

【本期要点】

03:05 Sora VS VideoPoet：胜在时长和分辨率

05:02 语言模型规模扩大之后：走向多模态基础模型的一大步

10:06 Sora 的核心贡献：高质量的数据集

12:25 新近研究结果：超长 transformer 或可在成本增长可控的情况下实现

17:37 compression network 为什么重要？学习空间的生成逻辑

22:44 Sora 的特别之处：diffusion denoising 的训练方式

27:57 Sora 与 GPT 结合的可能性

33:05 理想的「世界模型」要能够「预测未来」

38:02 大模型能够理解更多细分场景下的精细化规则

46:26 Sora 会是多大的模型？

58:47 Sora 能实现 In-Context Learning 吗？

01:05:49 10 秒长度的视频或许只要 1 分钟就能生成：推理速度的提升空间巨大

01:08:28 性能提升的门槛与初创公司的挑战

01:11:28 「有多少人工就有多少智能」

01:15:58 让聪明人去更新模型架构，还不如去清洗数据效果好

01:22:01 用合成数据做训练：大模型「活在」人造世界里

01:28:36 缺乏交互的情况下，「生成的多样性」可能被高估了

01:32:17 在算力相对不足的情况下实现模型效果，这才是有挑战的地方

01:37:45 论文被拒，却做出惊艳世界的产品：「大力出奇迹」VS 学术创新

01:39:32 硬件「突围」、融合战略、多模态交叉与「涌现」的想象力

【延伸阅读】

相关阅读：

OpenAI Sora 发布：背后的商业洞察与技术创新

提到的论文：

VideoPoet: A large language model for zero-shot video generation, by Lijun Yu

Scalable Diffusion Models with Transformer, by William Peebles, SainingXie

WALT: Photorealistic Video Generation with Diffusion Models, by LijunYu

World Model on Million-Length Video And Language With RingAttention

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

ViViT: A Video Vision Transformer

【相关资料】

VideoPoet： Google 于 2023 年底发布的专注于视频生成的大语言模型，能够执行各种视频生成任务。和绝大多数视频领域模型不同，VideoPoet 并没有走 diffusion 的路线，而是沿着 transformer 架构开发，将多个视频生成功能集成到单个 LLM 中，证实了 transformer 在视频生成任务上的极大潜力。

Encoder-Decoder：编码器与解码器。编码器将输入序列转换成一个固定长度的上下文向量。解码器从上下文向量中生成输出序列。

Scaling Law：在计算机科学和数学中，扩展定律（Scaling Law）是描述系统随着其规模的增长而发生的变化的定律。这些定律通常用于分析大规模系统的行为，尤其是在计算机科学中研究系统性能和效率时经常会用到。

Transformer：Transformer模型是一种用于自然语言处理（NLP）和其他序列到序列（sequence-to-sequence）任务的深度学习模型。它由Vaswani等人在2017年的论文《Attention is All You Need》中提出，其主要创新是引入了自注意力机制（self-attention mechanism）。

Autoregression Model：自回归模型，基于时间序列自身的历史值来预测未来值，通过将当前时刻的观测值与前一时刻的观测值之间的关系进行建模。

Diffusion Models：通过学习把图像逐步变成纯噪声的逆操作，把任何一个纯噪声图像变成有意义的图像，从而完成图像生成。

Video Compression Network：将原始视频作为输入，通过一个视频压缩网络将其转换为在时间和空间上压缩的潜在表示，以减少模型的计算负担和提高训练效率。

Data curation：对数据集中的数据进行选择、清理和组织，以获得高质量的用于训练模型的数据集。

Stable Diffusion：经过训练可以逐步对随机高斯噪声进行去噪以获得感兴趣的样本，例如生成图像。在像素空间中运行，去噪过程的时间和内存消耗都非常昂贵。

Latent Diffusion：能够在较低维度的潜空间上应用扩散过程而不是使用实际的像素空间，因此可以减少内存和计算成本。

Latent Space：机器学习模型学习到的数据的低维表示。这种压缩表示捕捉了数据中的基本特征和关系，使模型能够高效地执行任务。

Pixel Space：像素空间。

Context Window：指语言模型在进行预测或生成文本时，所考虑的前一个 token 或文本片段的大小范围。较大的上下文窗口可以使模型做出更准确的预测或生成。

Consistency Model：一种生成模型，可以在采样中生成高质量的数据而不需要对抗训练。通过从预训练的扩散模型中 Distil（蒸馏）知识和采用学习指标来得到最佳的样本质量。但是 Distil 限制了 Consistency Models 的质量不能超过预训练的扩散模型。

Sparse Attention：处理大规模数据时，只关注数据中的一小部分，以提高计算效率。

In-context Learning：在大型语言模型（如 GPT-3）中流行的机器学习方法，可以根据几个实例理解任务并提供答案。此方法使模型能够利用接收到的输入数据快速适应新任务，无需额外的参数更新或训练。

Curve Fitting：曲线拟合。

【Staff】

监制：加分、Yifei

后期：虫二

【关于真格】

《此话当真》是一档由真格基金出品的泛商业类播客，真格基金投资团队将在此和各领域的领军人物一起分享最新热点和行业洞察。

真格基金创立于2011年，是国内最早的天使投资机构之一。自创立伊始，真格基金一直积极在人工智能、芯片与半导体、机器人与硬件、医疗健康、企业服务、新能源、跨境出海、消费生活等领域寻找最优秀的创业团队和引领时代的投资机会。

真格，你的创业第一站！

【联系我们】

公众号：真格基金（ID: zhenfund）

官网链接：www.zhenfund.com

邮箱：media@zhenfund.com

你可以通过小宇宙、苹果Podcast、喜马拉雅收听我们。

如对节目有任何的建议与期待，也欢迎大家在留言中互动～