49 a16z|(上)李飞飞:从语言到世界:空间智能是人工智能的下一个前沿

49 a16z|(上)李飞飞:从语言到世界:空间智能是人工智能的下一个前沿

39分钟 ·
播放数91
·
评论数0

李飞飞认为,在大型语言模型在“语言智能”上取得巨大突破之后,人工智能的下一个前沿 frontier 是 “空间智能”

她提出,真正的智能不仅在于理解和生成**文字世界**,更在于理解和参与**三维物理世界**。AI需要从“读懂”文本,进化到“看懂”并“操作”我们生活的这个空间环境。

1. 为什么空间智能是下一个前沿?

*人类智能的基石:人类智能本质上是具身的、与物理世界互动的。我们从婴儿时期就开始通过视觉、听觉、触觉等感官来学习和构建对三维空间的认知,这是所有思考和行动的基础。

*当前AI的局限:尽管LLM拥有了庞大的知识,但它们缺乏对物理世界的基本常识理解。例如,它们可能知道“水杯”这个词,但不一定理解水杯会摔碎、如何拿起它才不会洒水等物理规律。

*巨大的应用潜力:实现空间智能将解锁革命性的应用,尤其是在机器人、自动驾驶、增强现实、医疗影像分析等领域,这些都需要AI对三维空间有深刻的理解。

2. 什么是空间智能?

李飞飞将其分解为三个核心的、相互关联的任务:

*三维视觉感知:不仅仅是识别图像中的物体,而是要理解物体的**三维几何形状、材质、以及它们之间的空间关系(如 inside, behind, on top of)。

*基于物理的推理:理解物体在物理世界中的运动、交互和变化。例如,预测一个被推下的桌子上的物体将如何掉落,或者理解力与反作用力。

*具身智能与行动:将感知和推理转化为具体的行动。这通常是机器人技术的核心:规划路径、抓取物体、操作工具,以在复杂环境中完成特定任务。

3. 如何实现空间智能?

她提出了一个可行的技术路径,核心是构建 “具身AI”

*生成式模拟器:创建高度逼真的**三维物理环境模拟器**。这些模拟器可以作为“训练场”,让AI在其中进行无数次试错学习,而无需在现实世界中付出昂贵或危险的代价。

*从互联网规模的3D数据中学习:就像LLM从互联网文本数据中学习一样,空间智能模型需要从海量的**三维数据**中学习,例如3D扫描模型、室内外场景重建数据、机器人交互数据等。

*具身智能体:在这些模拟环境中训练“智能体”,让它们通过第一人称视角与环境互动,学习“如果我做这个动作,会发生什么”,从而积累关于世界的常识。

4. 面临的挑战与未来展望

*挑战:获取和标注3D数据比2D图像更难;构建能够准确模拟复杂物理规律(如流体、柔软物体)的模拟器极具挑战;计算需求巨大。

*展望:李飞飞呼吁学术界和工业界共同努力,将目光投向这一新前沿。她相信,实现空间智能将是通向**通用人工智能** 道路上至关重要的一步,将使AI不仅能与我们对话,更能进入我们的世界,帮助我们解决实际问题。