Spark AI 李智昊:用视频做世界模型,路线非常不本质AI炼金术

Spark AI 李智昊:用视频做世界模型,路线非常不本质

55分钟 ·
播放数416
·
评论数2

李智昊,1998 年生。Spark AI 联合创始人。Spark 3D 论文发表在 NeurIPS 2025。

聊到第 33 分钟,他对我说:


从我的视角来看,这条路线非常的不本质。

——「这条路线」指的是今天最火、最多融资的世界模型公司"用视频做世界模型"的路线。

去年 5 月 1 日凌晨,他和团队的 Spark 3D demo 上了 Hugging Face Trending 第一。他的判断是:4D 物理世界自己的 Stable Diffusion 时刻——两年内会被实现

这一期是给所有做图、做 3D、做机器人、做游戏、做视频、以及想在下一波 AI 跃迁里"埋伏"的人——一份蹲守地图。


嘉宾

李智昊|Spark AI 联合创始人。1998 年生,南大本科、新加坡南洋理工大学博士。代表作 Spark 3D——2025 年 5 月 1 日 demo 上 Hugging Face Trending 第一名,论文发表于 NeurIPS。一直沿着"压缩可以提升智能"这条暗线在走:从语言、图像、3D 一路逼到 4D 物理世界。本期他给所有人画了一张"世界模型赛道全景图",并预测了下一个跃迁的时间窗。


亮点


视频是 4D 物理世界的有损投影


聊到第 6 分钟,李智昊把所有"视频生成式"世界模型的根一句话点出来——它们都是"从视频出发",把视频当成 4D 物理世界的投影来做建构。问题在哪?「它被拍扁了那一刻,就很多的物理规律就被丢失掉了。举个最简单的例子,我们两个人相遇,这手手之间错过——为什么一直视频生成会有很大的问题?因为他丢失了这种手的前后关系、深度的空间关系。」


这条路线非常的不本质


全集冲突感最强的一句直引。任鑫问:能不能像 GPT 那样用 Next Token Prediction,直接从视频里把 3D 理解逼出来?李智昊的回答:「其实每个人都有不同的观点。从我的视角来看,这条路线非常的不本质。 因为你妄图从这种海量的数据里面做推理、做建模,它其实并不是一个高效的表征。」一句话把今天市面上所有视频生成派的世界模型公司都点了名。


视频生成派的第二个死结:Latency


李智昊给视频派的第二个判断:现在通用做法是用 3D VAE 对原始视频进行压缩——「它不可避免的会对时间维度进行压缩,这样就会导致你在 latent space 想去做一个 action,得到的 feedback 会在几帧之后,甚至有可能一秒之后才有。相当于你在 Vivo 的自动驾驶 simulator 里踩了一下刹车,最后过了十几帧才得到一个 feedback。」对自动驾驶 simulator、机器人 RL 训练,这种 latency 是致命的。


Spark 3D 的路:4D 点云 + Motion 残差


具体怎么做?李智昊和团队的路是「直接对 4D 空间进行建模」——以 4D 点云作为表征,把点源拆成"静态 + motion 残差"两部分。静态部分用 3D 高斯压缩,动态部分单独用一个小 token 表征。「我每次只压一个小的残差,不会把整张图像进行压缩。」一次 action 只改 motion 那一小段 token——latency 死结解开。


大厂难以去从表征层面来做更改


任鑫问:这种事大公司不更适合干吗?人家有 10 万张卡。李智昊接着说:「其实我觉得这反而是我们差异化的优势。大厂他投入了非常巨量的资源去做每一次视频生成的训练……可能他下一个 Q 就要做超过他自己的 2.0、3.0……但其实他们非常难以去从表征层面来做更改。 每一次表征的更改都意味着你数据的推倒重来,也意味着从整个数据处理到整个压缩设计智能生成,所有的管线都可能要被重做。


壁垒在于表征的效率


聊到后半段最关键的一句立场宣告,李智昊接着说:「我觉得现在大部分人认为世界模型的壁垒还在于数据。我去采更多的 egocentric 数据……因此在同样的数据量下,我也需要加入更多的算力。我个人认为,包括我们 Spark AI 整个的姿态,还是认为壁垒在于表征的效率。 你如果把更多或者再多的资源投入到错误的表征上,只是把现在的这个天花板逐渐去逼近,而不是把天花板本身去捅破。」——这是直接反主流"数据 + 算力"派的立场。


两年内会被实现 4D 的 Stable Diffusion 时刻


任鑫问:4D 的「Stable Diffusion 时刻」会在两年内还是更晚一点?李智昊回答:「我觉得应该是在两年内,我们觉得还是比较有信心的。我们确实看到了一些迹象,我们认为两年内会被实现。」


任鑫追问:假设 12 个月后有重大突破,第 9 个月该干啥?李智昊给的方向:高精度多人 Minecraft / 4D 元宇宙;AI 生成游戏 + 3D 资产;机器人 simulator;个性化 3D 打印。


时间戳

00:04 一句话讲清楚他在干嘛——表征是底层暗线

02:35 Spark 3D 是怎么火起来的(5 月 1 日 Hugging Face Trending 第一)

03:29 压缩本身是一种表征方式

04:39 为什么 word model 必须做 4D 而不是 2D 视频

06:07 「我们把视频当做一个 4D 物理世界的有损投影」

07:52 视频生成路线的真正瓶颈:Latency

10:20 Spark 3D 的技术路径:4D 点云 + Motion 残差

18:14 4D 点云怎么压缩成 token

19:23 Ablation study:压缩好就能把智能上限提高

25:07 「大厂非常难以去从表征层面来做更改」

26:31 任鑫提炼:"越小公司越应该做大事"

27:17 「我们其实真的是在做底层」

33:20 「这条路线非常的不本质」

34:59 任鑫讲佛教公案 / 35:30 李智昊技术解读

36:37 类比图像生成的 Stable Diffusion 时刻

39:36 「4D 跃迁,两年内会被实现」

41:05 To C 切入点:高精度多人 Minecraft

42:09 彩蛋:OnlyFans / NSFW 方向

43:15 游戏公司是天然客户:3D 一致性需求

45:08 世界模型赛道全景图(三类玩家)

47:58 「壁垒在于表征的效率」

51:12 一句话送给想跟图、跟 3D 创业的人

52:04 「下一个被突破的,可能就是 4D 物理世界」

53:21 任鑫收尾:做 AI 最痛苦的事



欢迎订阅「AI 炼金术」的播客,以及同名公众号、视频号 

「AI 炼金术」是一档由徐文浩和任鑫——两位多年老友、AI 领域的资深从业者——打造的播客。这里是探讨 AI 和创业的理想聚集地,我们会邀请一线创业者、产品产品和科研学者,深入探讨 AI 如何重塑行业、变革生活,以及如何从 0 到 1 打造 AI 原生产品。 

我们的讨论会涵盖多个话题:从 AI 如何改变世界的未来,到如何找到 AI 创业的 PMF;从如何利用 AI 降本增效,到怎样将 AI 技术融入日常生活……如果你对 AI、产品、创业感兴趣,这里有满满的干货和一线实战经验,欢迎关注并推荐给你的朋友,共同探索未来的无限可能! 

商务合作:公众号 「AI炼金术 」菜单栏中【商务】获取联系方式 


节目主理人: 

徐文浩:某AI创业公司联合创始人,正在面向全球市场开发AI应用。连续创业者,参与过多家创业公司,拼多多早期员工。广告科技公司MediaV的算法和数据负责人,后被360收购。离开后加入成立不到1个月的拼多多。后创办了基于AI的海外客服聊天机器人公司 BotHub.AI 和 海外社交电商平台 Bukito 都宣告失败。2023年再次下场创业。 

任鑫:美元基金合伙人,主要在投资和孵化面向全球市场的 AI 应用。之前是连续创业者,曾经打造“今夜酒店特价”用移动互联网应用特价销售酒店尾房;被京东并购后内部创业“京东到家”开展本地即时零售业务;2015 年再次创业 Get 探索对话式人工智能助理成为先烈;2021 年出售公司,2023 年重新回到 AI 世界。


播客剪辑:

十六颗糖


BGM:

片头:Shortwire - Reconfig

片尾:Alex Siegel - Daydreaming Pilot


展开Show Notes
qilin_j6kB
qilin_j6kB
6小时前
表征表征表征,压缩压缩压缩,世界模型,捅破天花板...连这个4d motion 所谓点云建模都说不清楚,智昊哥其实可以说一句不方便透露就move on的...
这期听了好几遍