#163. 李飞飞:空间智能是人工智能的下一个前沿

#163. 李飞飞:空间智能是人工智能的下一个前沿

37分钟 ·
播放数1238
·
评论数5

📝 本期播客简介

本期我们克隆了:知名创业孵化器 Y Combinator 的 Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI

他们邀请到被誉为“AI教母”的李飞飞博士,分享她从点燃深度学习革命的ImageNet,到如今投身AI最艰难前沿之一“空间智能”的完整心路历程。李飞飞博士详细阐述了十六年前创建ImageNet的幕后故事,以及为何她认为让AI理解三维世界的空间智能是通往通用人工智能(AGI)不可或缺的一环。此外,她还分享了自己从移民、经营干洗店到创立前沿AI公司的非凡人生经历,并揭示了她识人育才的核心标准——“智识上的无畏”。

👨‍⚕️ 本期嘉宾

李飞飞博士,被誉为“AI教母”。她是ImageNet项目的缔造者,该项目为深度学习革命奠定了关键的数据基础。她曾任斯坦福大学计算机科学系教授,并创办了斯坦福以人为本AI研究院(HAI)。如今,她作为创始人兼CEO,正带领初创公司World Labs,致力于解决AI领域的前沿难题——空间智能。

📒 文字版精华

微信公众号(点击跳转)

⏱️ 时间戳

00:58 开场介绍

ImageNet 的诞生与影响

02:11 ImageNet 的幕后故事:一个由数据驱动的疯狂赌注

06:49 AlexNet 时刻:数据、GPU与神经网络的首次完美结合

AI 视觉的进化

08:57 从物体识别到场景描述:实现曾经遥不可及的梦想

下一个前沿:空间智能

12:18 创立 World Labs:为何空间智能是通往 AGI 的必经之路?

14:51 为什么空间智能比语言模型更难?

无畏的人生旅程

23:03 从洗衣店老板到 AI 领袖:我就是喜欢当一个创业者

26:01 识人之道:我寻找“智识上的无畏”

观众问答 (Q&A)

28:18 给博士生的建议:学术界如何与工业界错位竞争?

30:13 AGI 迷思:我们真的知道自己在谈论什么吗?

33:35 开源 vs 闭源:健康的生态系统需要多样性

35:46 作为少数群体的经历:专注于做事本身

🌟 精彩内容

ImageNet的诞生: 李飞飞博士亲述当年如何顶住压力,下注于数据驱动方法,最终催生了深度学习的革命。

空间智能的前沿探索: 深入解析为何理解三维世界是AI的下一个“北极星问题”,以及它为何比语言模型更具挑战性。

智识上的无畏: 揭示她衡量人才的黄金标准,以及这种精神如何贯穿她的科研与创业生涯。

非凡人生旅程: 从一句英语不会的移民,到经营干洗店的少女,再到世界顶尖的AI科学家和企业家,她的经历充满启发。

给研究者的建议: 对学术界与工业界的发展、开源策略、未来研究方向等热点问题给出了深刻见解。

AGI的重新思考: 她对当前流行的AGI概念提出了挑战,引导听众回归对“智能”本质的思考。

🌐 播客信息补充

翻译克隆自:Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
立善
立善
2025.7.04
💪 无畏人生:从洗衣店老板到AI领袖李飞飞的人生旅程本身就是一部励志传奇。十九岁时,一句英语不会的她移民美国,为了养家糊口和支付普林斯顿大学的学费,开了一家干洗店。"用硅谷的话说,我融资了,我是创始人、CEO,我还是收银员和所有其他角色。然后我退出了,七年之后。"这段经历塑造了她不畏艰难的性格。无论是作为年轻教授选择去那些"我是第一个计算机视觉教授的院系",还是在斯坦福创办以人为本AI研究院(HAI)并"像运营一家初创公司一样运营了五年",李飞飞始终保持着创业者的心态。"我就是喜欢当一个创业者,忘掉你过去的成就,忘掉别人对你的看法,只管埋头踏实做事,这才是我的舒适区。"🎯 识人之道:寻找"智识上的无畏"作为导师,李飞飞培养了众多AI领域的传奇人物,如Andrej Karpathy、贾登等。她分享了自己识人育才的核心标准——"知识上的无畏"(intellectual fearlessness)。"那种勇气,那种拥抱难题,勇往直前,全身心投入并想尽一切办法去解决的无畏精神,是成功人士真正的核心特质。"对于正在招聘的World Labs,她同样看重这种品质:"如果你觉得自己无所畏惧,对解决空间智能问题充满热情,来找我聊。"🤔 AI前沿思考与建议在问答环节,李飞飞分享了对AI领域多个热点问题的深刻见解:给博士生的建议:
"寻找那些不与工业界优势问题正面冲突的北极星。学术界仍然有一些非常基础的问题,无论你有多少芯片,你都可以取得很大进展。"她特别推荐跨学科AI研究、理论基础问题(如可解释性、因果关系)、小数据学习等方向。对AGI的看法:
"我很难给AGI下定义。如果我们说今天的类AGI系统比八十年代、七十年代、九十年代的狭义AI系统表现更好,我认为这是对的。这只是这个领域的进步。"她指出大脑既有整体性又有功能分区,暗示AGI可能也会是类似的混合体。开源与闭源:
"我认为当存在不同方法时,生态系统才是健康的。不是说你必须开源或必须闭源,这取决于公司的商业策略。"但她强调:"开源应该受到保护,对于创业、生态系统和公共领域都至关重要。"作为少数群体的经历:
"我们所有人都有过感觉自己是少数群体或房间里唯一一个那样的人的时刻。我几乎锻炼出了一种能力,就是不去过度解读这件事。我来这里是为了学习做事或创造东西。"
Mars98563
Mars98563
2026.1.25
00:01 谢谢。
zz快醒醒
zz快醒醒
2025.7.07
跨学科ai
立善
立善
2025.7.04
ImageNet:点燃深度学习革命的火种回到2007年,当时的AI领域还处于"寒冬",数据匮乏,算法在计算机视觉领域几乎无法施展。作为普林斯顿大学第一年的助理教授,李飞飞怀揣着"让机器能看"的梦想,敏锐地意识到数据将是AI革命的关键。"我当时痴迷于让机器能看这个问题。当我痴迷地开发机器学习算法时,我们试过神经网络,但行不通。转而尝试了贝叶斯网络、支持向量机等等各种方法。"面对泛化能力不足的核心挑战,李飞飞做出了一个大胆的赌注:"我们必须赌机器学习需要一场范式转移,而这场范式转移必须由数据驱动的方法来引领。"于是,她和学生们决定从互联网上下载十亿张图片,创建一个完整的视觉分类体系——这就是ImageNet的诞生。从2009年发表CVPR海报到2012年AlexNet横空出世,中间经历了三年的等待。李飞飞回忆道:"我们坚信数据将驱动AI,但几乎没什么信号能证明这条路走得通。"2012年夏末的一个深夜,转折点终于到来。李飞飞的研究生发来消息:"我们得到了一个非常非常出众的结果。"那是团队的卷积神经网络,错误率大幅下降,震惊了整个领域。"那真的是数据、GPU和神经网络三者首次完美结合的时刻。"ImageNet的成功离不开两个关键决策:一是开源,让整个研究社区都能参与;二是发起挑战赛,每年发布测试数据集,激励全球研究者共同进步。这个项目最终被引用超过8万次,为AI奠定了重要基石。
🚀 从物体识别到场景理解:AI视觉的进化之路ImageNet解决了基础的物体识别问题,但李飞飞的梦想不止于此。她的终极目标是让AI能够"对世界进行故事化的描述"。"当人类睁开眼睛,你不会只看到人、椅子、椅子,你实际上看到的是一个会议室,有屏幕,有舞台,有观众,有摄像机,你其实可以描述出整个场景。"这个曾被她认为"需要一百年才能实现的梦想",在深度学习的推动下加速实现。2015年左右,李飞飞和学生Andrej Karpathy发表了一系列论文,成为首批让计算机能够描述图像的研究。有趣的是,当时李飞飞曾开玩笑地问Andrej:"我们为什么不反过来试试输入一个句子,生成一张图片呢?"Andrej笑着回答:"哈哈,我可不干了。"谁能想到,短短几年后,文本生成图像竟成为AI领域的热门方向!
🌌 空间智能:AI的下一个前沿在实现了场景描述的梦想后,李飞飞并未止步。她将目光投向了更具挑战性的领域——空间智能。2023年,她创立了World Labs,致力于解决这个被她称为"AI领域最难的问题"。为什么选择空间智能?李飞飞从进化角度给出了深刻洞察:"人类语言的进化花了30万到50万年,而视觉和空间理解的进化花了5亿4千万年。从三叶虫在水下发展出视觉开始,视觉真正引爆了进化的军备竞赛。""在我看来,没有空间智能,AGI就不算完整。而我想解决的就是这个问题。"空间智能为何比语言模型更难?李飞飞指出了三个核心挑战:维度复杂性:真实世界是三维的(加上时间就是四维),比一维的语言序列复杂得多,带来了组合爆炸式的难题。投影难题:无论是眼睛还是相机,都是将三维世界压缩到二维平面,这在数学上是病态问题,需要解决。数据稀缺:互联网上有海量的语言数据,但空间智能的数据"都在我们脑子里",获取难度大得多。为了攻克这些难题,李飞飞组建了一支"神仙团队",包括Pulsar(可微渲染早期雏形)创造者Christoph Lassner、实时神经风格迁移实现者Justin Johnson,以及NeRF论文作者Ben Mildenhall。
01:57 agi 啊给?