S8Bonus | 抱歉,Sora 还不能称为「世界模拟器」

S8Bonus | 抱歉,Sora 还不能称为「世界模拟器」

49分钟 ·
播放数25851
·
评论数35

过去一周,OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条,特别是他们号称是物理世界模拟器,让许多人惊掉下巴。本期节目,我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成,从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间,以及这是否是代表着人类离 AGI 又进了一大步。

短短一年时间内,Sora 为什么能在视频生成效果上实现质的飞跃?Sora 所采取的技术路线,其背后的原理是什么?和其他文生视频模型相比,Sora 的模型又有哪些优势和劣势?未来,Sora 的落地应用场景可能会有哪些?Sora 会继续沿用 ChatGPT 的商业模式吗?OpenAI 对 Sora「物理世界模拟器」的定位是否准确? Sora 横空出世后,我们距离 AGI 还有多远?

这期节目我们聊了很多技术,在所难免很多的专业术语都是英文的表达,如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。

全新付费播客「不止金钱」早鸟优惠价截止到元宵节!
我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可,销量也大大超出了我们的预期,感谢大家!
新年新气象,我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节,2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化,让钱包和生活都变得确定。
点击链接查看「不止金钱」的节目简介、收听节目预告。

本期人物
李崇轩,中国人民大学高瓴人工智能学院副教授、博士生导师
和成,AI 连续创业者,Newcast.ai 创始人、YC Alumni

主要话题
02:23 聊聊看到 Demo 视频后的意料之外与情理之中
03:58 Diffusion 和 Transformer 大家都在用,为什么只有 Sora 能生成 60s 的视频?
10:53 Sora 训练用的数据可能部分来自游戏引擎生成?
15:08 Sora 训练参数大猜测
16:33 文生视频领域不同技术路线的优劣对比
20:41 国内外大厂想要追赶 Sora,有哪些壁垒需要突破?
24:18 Sora 模型的无奈:原理局限与数据瓶颈
32:56 对话生成还是新的 UI 界面: Sora 可能的商业化模式
34:24 文生视频消灭中间环节,渲染引擎结合 Sora 的想象空间?
36:34 距离用户端大规模用上 Sora 还有多久?
39:03 为什么说「Sora 是世界模拟器」不够准确?
41:38 融入传感器和检索,畅想「世界模拟器」的其他可能性
44:13 Sora 让我们与 AGI 的距离更近一步?

关联阅读

  • 通用人工智能离我们多远,大模型专家访谈 |S7E11 硅谷徐老师 x OnBoard!- Sora 的演示视频和技术报告
  • 被认为是 Sora 技术基础的一篇论文,由谢赛宁与 Sora 研发负责人合著
  • Patch 的技术论文
  • Pika 创始人回应 Sora 发布
  • 彭博对 Sora 如何改变未来的猜想
  • Diffusion Transformer(DiT),是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构,而不是传统的卷积神经网络(如U-Net)。
  • W.A.L.T. ,Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的 基于Transformer的潜在视频扩散模型,中文可以翻译为“视觉增强语言Transformer”。
  • 隐空间(latent space)或者潜在空间(potential space),是机器学习模型中一个重要的概念,它指的是模型学习到的数据特征的抽象表示。在潜在空间中,每个数据点都对应着一个向量,该向量表示该数据点的特征。潜在空间的维度通常比原始数据的维度低,因此它可以用于对数据进行降维和压缩。在生成模型中,潜在空间通常用于生成新的数据样本。
  • Scaling law是指AI模型的性能与模型规模(例如参数数量、训练数据量、计算资源等)之间的关系。AI模型的性能通常会随着模型规模的增加而提高,但这种提升并不是线性的。
  • Space-time patch指的是时空块,是指从视频或图像序列中提取的连续时空区域。时空块通常包含多个空间维度(例如图像中的像素)和时间维度(例如视频中的帧)。时空块可以同时包含空间信息和时间信息,这对于理解视频或图像序列中的动态变化非常重要;可以有效降低计算复杂度,提高计算效率以及用于数据增强,扩充训练数据集,提高模型的鲁棒性。
  • Autoregressive Models,自回归模型 (AR model) 是一种统计模型,它基于过去的值来预测序列中的下一个值。换句话说,它假设当前的值仅取决于其之前的某个数量的值。在人工智能领域,自回归模型广泛用于各种任务:时间序列预测:例如,预测股票价格、天气情况或交通流量。语言建模 :用于训练语言模型,使其能够生成与给定文本相似的文本。 图像生成 :用于生成逼真的图像,例如根据图像的一部分生成整个图像。
  • Omniverse: 是由英伟达 (NVIDIA) 开发的实时协作和物理精确模拟平台。它旨在将 3D 工作流程连接起来。
  • Runway:是一个 AI 工具编辑、增强和生成视频的创意 AI 的平台,成立于2018年。(runwayml.com)
  • Active reasoning(主动推理):是指系统能够在开放环境中动态收集信息并进行推理的能力。这与传统人工智能系统不同,后者依赖预加载的知识并在受控环境中执行任务。
  • Q* :2023 年底,路透社和 The Information 报道了 OpenAI 内部演示了一种名为 "Q*" 的模型,据称能够解决“简单数学问题”,可能表明处于学习和推理的早期阶段。
  • Magic Dev: 是一家位于美国加利福尼亚州旧金山的软件公司,成立于 2021 年。该公司致力于开发下一代人工智能驱动的软件开发工具,帮助开发人员提高工作效率和生产力。(magic.dev)

幕后制作
监制:丁教、糕糕
后期:迪卡普里鑫
运营:瑞涵
设计:饭团

商务合作
声动活泼商务合作咨询

支持我们,加入新一年的播客创新
2021 年我们发起了「声动胡同会员计划」,这是一个纯支持项目,支持「声动活泼」在播客内容上不断探索和创新。回顾 2023 年,得益于这些支持,「声动活泼」的每档节目都不断突破,不仅荣登苹果中国的年度热门节目榜单,还在 CPA 和喜马拉雅等平台都榜上有名。2024 年,我们也会继续创新,一档全新的投资类节目即将和大家见面,同时也会用更加创新的方式制作新一季「声音特稿」节目。

欢迎点击链接查看我们 2023 年收获和 2024 年内容计划。如果你认同或喜欢我们做的事情,也期待我们不断尝试并产生好内容,欢迎付费支持。
胡同

加入我们
声动活泼正在招聘全职「节目监制」、「节目营销」、「商业化项目管理」,查看详细讯息请 点击链接。如果你已准备好简历,欢迎发送至 hr@shengfm.cn, 标题请用:姓名+岗位名称。

关于声动活泼
「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客:声动早咖啡声东击西吃喝玩乐了不起反潮流俱乐部泡腾 VC商业WHY酱跳进兔子洞
欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。
期待你给我们写邮件,邮箱地址是:ting@sheng.fm
声小音

欢迎扫码添加声小音,在节目之外和我们保持联系。

展开Show Notes
置顶
💰 这个春节你买黄金了吗?过年前后,金店总是格外热闹。很多人喜欢在春节买黄金,一是为了讨个好彩头,二也是希望可以投资保值。但你可能不知道,买金投资也是有风险的。
🎙 播客「不止金钱」在本周更新的番外节目中就聊了聊买金投资避险可能遇到的风险,感兴趣的朋友可以免费收听 👉🏻 番外03. 买黄金避险?你得先了解其中的风险
提个小建议。节目中如果嘉宾说了一些英语专业词汇,是不是可以在show notes 里面做个备注说明。这样也不会影响节目的连贯性,还能更便于听众理解。
丁教Diane
:
添加了
丁教Diane
丁教Diane
2024.2.24
更新了一些技术术语的解释在shownote里
HD648334k:嗨show note在哪里呢😆没有看到哇
momo_inorg
momo_inorg
2024.2.23
现在有请反方辩手:
Dicaprixin
Dicaprixin
2024.2.23
作为一个视频创作者非常期待sora
之前用runway,好用的点是支持图生视频,且能用工具将图分层并给到精确的运动指令
渲染时间都是3/5分钟 ,且可以用慢动作将生成的4s无限延长
但是如果SORA渲染一期60s是runway的10几倍,所以假如需要20mins也已经很短了
但是不知道能不能支持图片中指定物体的运动

另外希望SORA有个功能就是视频能同时自动生成音频,这样就真正的约等于实拍了!
zeroan
zeroan
2024.2.26
这期很有意思,不过确实有点硬核了,问到unet模型的时候,我以为甚至要开始介绍“多分辨率卷积神经网络”了🤣
Ming_Stacey
Ming_Stacey
2024.2.23
说到scaling up…… 另一个消息就是sam seeks for trillions of dollars to reshape business of chips and AI .. 期待看硬件的突破
23:21 科早又回到了我听不懂喵呜格😂😂我已经刷了第二遍了 看点文章补些知识会好懂一点
RoyZ
RoyZ
2024.2.27
特别系统,特别棒
宇小宙Tim
宇小宙Tim
2024.2.24
感觉是一期很专业很专业的节目
cai彩
cai彩
2024.2.27
what is next是啥意思
丁教Diane
:
下一个(科技新知/浪潮)是什么
MJ 团队有50 人?
丁教Diane
:
有的
Ming_Stacey
Ming_Stacey
2024.2.23
Sora官网的解读也不错。清楚明了 https://openai.com/research/video-generation-models-as-world-simulators
momomoss01
momomoss01
2024.2.23
第一,哈哈
Adele_0108
Adele_0108
2024.4.14
很喜欢的一期,因为和研究方向很相关,听到了很多知识,受益良多😄❤️
iamstone
iamstone
2024.3.19
丁教要不要聊聊 Blackwell 🥳
其实真听得一知半解……太多专业术语乐。
早春
早春
2024.3.05
07:14 隐空间
Ceceliaaa
Ceceliaaa
2024.3.03
38:55 产品化的能力 推理速度 合规化
打卡👍🏻