李智昊,1998 年生。Spark AI 联合创始人。Spark 3D 论文发表在 NeurIPS 2025。
聊到第 33 分钟,他对我说:
「从我的视角来看,这条路线非常的不本质。」
——「这条路线」指的是今天最火、最多融资的世界模型公司"用视频做世界模型"的路线。
去年 5 月 1 日凌晨,他和团队的 Spark 3D demo 上了 Hugging Face Trending 第一。他的判断是:4D 物理世界自己的 Stable Diffusion 时刻——两年内会被实现。
这一期是给所有做图、做 3D、做机器人、做游戏、做视频、以及想在下一波 AI 跃迁里"埋伏"的人——一份蹲守地图。
嘉宾
李智昊|Spark AI 联合创始人。1998 年生,南大本科、新加坡南洋理工大学博士。代表作 Spark 3D——2025 年 5 月 1 日 demo 上 Hugging Face Trending 第一名,论文发表于 NeurIPS。一直沿着"压缩可以提升智能"这条暗线在走:从语言、图像、3D 一路逼到 4D 物理世界。本期他给所有人画了一张"世界模型赛道全景图",并预测了下一个跃迁的时间窗。
亮点
视频是 4D 物理世界的有损投影
聊到第 6 分钟,李智昊把所有"视频生成式"世界模型的根一句话点出来——它们都是"从视频出发",把视频当成 4D 物理世界的投影来做建构。问题在哪?「它被拍扁了那一刻,就很多的物理规律就被丢失掉了。举个最简单的例子,我们两个人相遇,这手手之间错过——为什么一直视频生成会有很大的问题?因为他丢失了这种手的前后关系、深度的空间关系。」
这条路线非常的不本质
全集冲突感最强的一句直引。任鑫问:能不能像 GPT 那样用 Next Token Prediction,直接从视频里把 3D 理解逼出来?李智昊的回答:「其实每个人都有不同的观点。从我的视角来看,这条路线非常的不本质。 因为你妄图从这种海量的数据里面做推理、做建模,它其实并不是一个高效的表征。」一句话把今天市面上所有视频生成派的世界模型公司都点了名。
视频生成派的第二个死结:Latency
李智昊给视频派的第二个判断:现在通用做法是用 3D VAE 对原始视频进行压缩——「它不可避免的会对时间维度进行压缩,这样就会导致你在 latent space 想去做一个 action,得到的 feedback 会在几帧之后,甚至有可能一秒之后才有。相当于你在 Vivo 的自动驾驶 simulator 里踩了一下刹车,最后过了十几帧才得到一个 feedback。」对自动驾驶 simulator、机器人 RL 训练,这种 latency 是致命的。
Spark 3D 的路:4D 点云 + Motion 残差
具体怎么做?李智昊和团队的路是「直接对 4D 空间进行建模」——以 4D 点云作为表征,把点源拆成"静态 + motion 残差"两部分。静态部分用 3D 高斯压缩,动态部分单独用一个小 token 表征。「我每次只压一个小的残差,不会把整张图像进行压缩。」一次 action 只改 motion 那一小段 token——latency 死结解开。
大厂难以去从表征层面来做更改
任鑫问:这种事大公司不更适合干吗?人家有 10 万张卡。李智昊接着说:「其实我觉得这反而是我们差异化的优势。大厂他投入了非常巨量的资源去做每一次视频生成的训练……可能他下一个 Q 就要做超过他自己的 2.0、3.0……但其实他们非常难以去从表征层面来做更改。 每一次表征的更改都意味着你数据的推倒重来,也意味着从整个数据处理到整个压缩设计智能生成,所有的管线都可能要被重做。
壁垒在于表征的效率
聊到后半段最关键的一句立场宣告,李智昊接着说:「我觉得现在大部分人认为世界模型的壁垒还在于数据。我去采更多的 egocentric 数据……因此在同样的数据量下,我也需要加入更多的算力。我个人认为,包括我们 Spark AI 整个的姿态,还是认为壁垒在于表征的效率。 你如果把更多或者再多的资源投入到错误的表征上,只是把现在的这个天花板逐渐去逼近,而不是把天花板本身去捅破。」——这是直接反主流"数据 + 算力"派的立场。
两年内会被实现 4D 的 Stable Diffusion 时刻
任鑫问:4D 的「Stable Diffusion 时刻」会在两年内还是更晚一点?李智昊回答:「我觉得应该是在两年内,我们觉得还是比较有信心的。我们确实看到了一些迹象,我们认为两年内会被实现。」
任鑫追问:假设 12 个月后有重大突破,第 9 个月该干啥?李智昊给的方向:高精度多人 Minecraft / 4D 元宇宙;AI 生成游戏 + 3D 资产;机器人 simulator;个性化 3D 打印。
时间戳
00:04 一句话讲清楚他在干嘛——表征是底层暗线
02:35 Spark 3D 是怎么火起来的(5 月 1 日 Hugging Face Trending 第一)
03:29 压缩本身是一种表征方式
04:39 为什么 word model 必须做 4D 而不是 2D 视频
06:07 「我们把视频当做一个 4D 物理世界的有损投影」
07:52 视频生成路线的真正瓶颈:Latency
10:20 Spark 3D 的技术路径:4D 点云 + Motion 残差
18:14 4D 点云怎么压缩成 token
19:23 Ablation study:压缩好就能把智能上限提高
25:07 「大厂非常难以去从表征层面来做更改」
26:31 任鑫提炼:"越小公司越应该做大事"
27:17 「我们其实真的是在做底层」
33:20 「这条路线非常的不本质」
36:37 类比图像生成的 Stable Diffusion 时刻
39:36 「4D 跃迁,两年内会被实现」
41:05 To C 切入点:高精度多人 Minecraft
42:09 彩蛋:OnlyFans / NSFW 方向
43:15 游戏公司是天然客户:3D 一致性需求
45:08 世界模型赛道全景图(三类玩家)
47:58 「壁垒在于表征的效率」
51:12 一句话送给想跟图、跟 3D 创业的人
52:04 「下一个被突破的,可能就是 4D 物理世界」
53:21 任鑫收尾:做 AI 最痛苦的事
欢迎订阅「AI 炼金术」的播客,以及同名公众号、视频号
「AI 炼金术」是一档由徐文浩和任鑫——两位多年老友、AI 领域的资深从业者——打造的播客。这里是探讨 AI 和创业的理想聚集地,我们会邀请一线创业者、产品产品和科研学者,深入探讨 AI 如何重塑行业、变革生活,以及如何从 0 到 1 打造 AI 原生产品。
我们的讨论会涵盖多个话题:从 AI 如何改变世界的未来,到如何找到 AI 创业的 PMF;从如何利用 AI 降本增效,到怎样将 AI 技术融入日常生活……如果你对 AI、产品、创业感兴趣,这里有满满的干货和一线实战经验,欢迎关注并推荐给你的朋友,共同探索未来的无限可能!
商务合作:公众号 「AI炼金术 」菜单栏中【商务】获取联系方式
节目主理人:
徐文浩:某AI创业公司联合创始人,正在面向全球市场开发AI应用。连续创业者,参与过多家创业公司,拼多多早期员工。广告科技公司MediaV的算法和数据负责人,后被360收购。离开后加入成立不到1个月的拼多多。后创办了基于AI的海外客服聊天机器人公司 BotHub.AI 和 海外社交电商平台 Bukito 都宣告失败。2023年再次下场创业。
任鑫:美元基金合伙人,主要在投资和孵化面向全球市场的 AI 应用。之前是连续创业者,曾经打造“今夜酒店特价”用移动互联网应用特价销售酒店尾房;被京东并购后内部创业“京东到家”开展本地即时零售业务;2015 年再次创业 Get 探索对话式人工智能助理成为先烈;2021 年出售公司,2023 年重新回到 AI 世界。
播客剪辑:
十六颗糖
BGM:
片头:Shortwire - Reconfig
片尾:Alex Siegel - Daydreaming Pilot

