Spark AI 李智昊：用视频做世界模型，路线非常不本质

李智昊，1998 年生。Spark AI 联合创始人。Spark 3D 论文发表在 NeurIPS 2025。

聊到第 33 分钟，他对我说：

「从我的视角来看，这条路线非常的不本质。」

——「这条路线」指的是今天最火、最多融资的世界模型公司"用视频做世界模型"的路线。

去年 5 月 1 日凌晨，他和团队的 Spark 3D demo 上了 Hugging Face Trending 第一。他的判断是：4D 物理世界自己的 Stable Diffusion 时刻——两年内会被实现。

这一期是给所有做图、做 3D、做机器人、做游戏、做视频、以及想在下一波 AI 跃迁里"埋伏"的人——一份蹲守地图。

嘉宾

李智昊｜Spark AI 联合创始人。1998 年生，南大本科、新加坡南洋理工大学博士。代表作 Spark 3D——2025 年 5 月 1 日 demo 上 Hugging Face Trending 第一名，论文发表于 NeurIPS。一直沿着"压缩可以提升智能"这条暗线在走：从语言、图像、3D 一路逼到 4D 物理世界。本期他给所有人画了一张"世界模型赛道全景图"，并预测了下一个跃迁的时间窗。

亮点

视频是 4D 物理世界的有损投影

聊到第 6 分钟，李智昊把所有"视频生成式"世界模型的根一句话点出来——它们都是"从视频出发"，把视频当成 4D 物理世界的投影来做建构。问题在哪？「它被拍扁了那一刻，就很多的物理规律就被丢失掉了。举个最简单的例子，我们两个人相遇，这手手之间错过——为什么一直视频生成会有很大的问题？因为他丢失了这种手的前后关系、深度的空间关系。」

这条路线非常的不本质

全集冲突感最强的一句直引。任鑫问：能不能像 GPT 那样用 Next Token Prediction，直接从视频里把 3D 理解逼出来？李智昊的回答：「其实每个人都有不同的观点。从我的视角来看，这条路线非常的不本质。 因为你妄图从这种海量的数据里面做推理、做建模，它其实并不是一个高效的表征。」一句话把今天市面上所有视频生成派的世界模型公司都点了名。

视频生成派的第二个死结：Latency

李智昊给视频派的第二个判断：现在通用做法是用 3D VAE 对原始视频进行压缩——「它不可避免的会对时间维度进行压缩，这样就会导致你在 latent space 想去做一个 action，得到的 feedback 会在几帧之后，甚至有可能一秒之后才有。相当于你在 Vivo 的自动驾驶 simulator 里踩了一下刹车，最后过了十几帧才得到一个 feedback。」对自动驾驶 simulator、机器人 RL 训练，这种 latency 是致命的。

Spark 3D 的路：4D 点云 + Motion 残差

具体怎么做？李智昊和团队的路是「直接对 4D 空间进行建模」——以 4D 点云作为表征，把点源拆成"静态 + motion 残差"两部分。静态部分用 3D 高斯压缩，动态部分单独用一个小 token 表征。「我每次只压一个小的残差，不会把整张图像进行压缩。」一次 action 只改 motion 那一小段 token——latency 死结解开。

大厂难以去从表征层面来做更改

任鑫问：这种事大公司不更适合干吗？人家有 10 万张卡。李智昊接着说：「其实我觉得这反而是我们差异化的优势。大厂他投入了非常巨量的资源去做每一次视频生成的训练……可能他下一个 Q 就要做超过他自己的 2.0、3.0……但其实他们非常难以去从表征层面来做更改。 每一次表征的更改都意味着你数据的推倒重来，也意味着从整个数据处理到整个压缩设计智能生成，所有的管线都可能要被重做。

壁垒在于表征的效率

聊到后半段最关键的一句立场宣告，李智昊接着说：「我觉得现在大部分人认为世界模型的壁垒还在于数据。我去采更多的 egocentric 数据……因此在同样的数据量下，我也需要加入更多的算力。我个人认为，包括我们 Spark AI 整个的姿态，还是认为壁垒在于表征的效率。 你如果把更多或者再多的资源投入到错误的表征上，只是把现在的这个天花板逐渐去逼近，而不是把天花板本身去捅破。」——这是直接反主流"数据 + 算力"派的立场。

两年内会被实现 4D 的 Stable Diffusion 时刻

任鑫问：4D 的「Stable Diffusion 时刻」会在两年内还是更晚一点？李智昊回答：「我觉得应该是在两年内，我们觉得还是比较有信心的。我们确实看到了一些迹象，我们认为两年内会被实现。」

任鑫追问：假设 12 个月后有重大突破，第 9 个月该干啥？李智昊给的方向：高精度多人 Minecraft / 4D 元宇宙；AI 生成游戏 + 3D 资产；机器人 simulator；个性化 3D 打印。

时间戳

00:04 一句话讲清楚他在干嘛——表征是底层暗线

02:35 Spark 3D 是怎么火起来的（5 月 1 日 Hugging Face Trending 第一）

03:29 压缩本身是一种表征方式

04:39 为什么 word model 必须做 4D 而不是 2D 视频

06:07 「我们把视频当做一个 4D 物理世界的有损投影」

07:52 视频生成路线的真正瓶颈：Latency

10:20 Spark 3D 的技术路径：4D 点云 + Motion 残差

18:14 4D 点云怎么压缩成 token

19:23 Ablation study：压缩好就能把智能上限提高

25:07 「大厂非常难以去从表征层面来做更改」

26:31 任鑫提炼："越小公司越应该做大事"

27:17 「我们其实真的是在做底层」

33:20 「这条路线非常的不本质」

34:59 任鑫讲佛教公案 / 35:30 李智昊技术解读

36:37 类比图像生成的 Stable Diffusion 时刻

39:36 「4D 跃迁，两年内会被实现」

41:05 To C 切入点：高精度多人 Minecraft

42:09 彩蛋：OnlyFans / NSFW 方向

43:15 游戏公司是天然客户：3D 一致性需求

45:08 世界模型赛道全景图（三类玩家）

47:58 「壁垒在于表征的效率」

51:12 一句话送给想跟图、跟 3D 创业的人

52:04 「下一个被突破的，可能就是 4D 物理世界」

53:21 任鑫收尾：做 AI 最痛苦的事

欢迎订阅「AI 炼金术」的播客，以及同名公众号、视频号

「AI 炼金术」是一档由徐文浩和任鑫——两位多年老友、AI 领域的资深从业者——打造的播客。这里是探讨 AI 和创业的理想聚集地，我们会邀请一线创业者、产品产品和科研学者，深入探讨 AI 如何重塑行业、变革生活，以及如何从 0 到 1 打造 AI 原生产品。

我们的讨论会涵盖多个话题：从 AI 如何改变世界的未来，到如何找到 AI 创业的 PMF；从如何利用 AI 降本增效，到怎样将 AI 技术融入日常生活……如果你对 AI、产品、创业感兴趣，这里有满满的干货和一线实战经验，欢迎关注并推荐给你的朋友，共同探索未来的无限可能！

商务合作：公众号「AI炼金术」菜单栏中【商务】获取联系方式

节目主理人：

徐文浩：某AI创业公司联合创始人，正在面向全球市场开发AI应用。连续创业者，参与过多家创业公司，拼多多早期员工。广告科技公司MediaV的算法和数据负责人，后被360收购。离开后加入成立不到1个月的拼多多。后创办了基于AI的海外客服聊天机器人公司 BotHub.AI 和海外社交电商平台 Bukito 都宣告失败。2023年再次下场创业。

任鑫：美元基金合伙人，主要在投资和孵化面向全球市场的 AI 应用。之前是连续创业者，曾经打造“今夜酒店特价”用移动互联网应用特价销售酒店尾房；被京东并购后内部创业“京东到家”开展本地即时零售业务；2015 年再次创业 Get 探索对话式人工智能助理成为先烈；2021 年出售公司，2023 年重新回到 AI 世界。

播客剪辑：

十六颗糖

BGM：

片头：Shortwire - Reconfig

片尾：Alex Siegel - Daydreaming Pilot