49 a16z｜（上）李飞飞：从语言到世界：空间智能是人工智能的下一个前沿 - 英文新私想｜一天一篇外刊

李飞飞认为，在大型语言模型在“语言智能”上取得巨大突破之后，人工智能的下一个前沿 frontier 是 “空间智能”。

她提出，真正的智能不仅在于理解和生成**文字世界**，更在于理解和参与**三维物理世界**。AI需要从“读懂”文本，进化到“看懂”并“操作”我们生活的这个空间环境。

—

1. 为什么空间智能是下一个前沿？

*人类智能的基石：人类智能本质上是具身的、与物理世界互动的。我们从婴儿时期就开始通过视觉、听觉、触觉等感官来学习和构建对三维空间的认知，这是所有思考和行动的基础。

*当前AI的局限：尽管LLM拥有了庞大的知识，但它们缺乏对物理世界的基本常识理解。例如，它们可能知道“水杯”这个词，但不一定理解水杯会摔碎、如何拿起它才不会洒水等物理规律。

*巨大的应用潜力：实现空间智能将解锁革命性的应用，尤其是在机器人、自动驾驶、增强现实、医疗影像分析等领域，这些都需要AI对三维空间有深刻的理解。

2. 什么是空间智能？

李飞飞将其分解为三个核心的、相互关联的任务：

*三维视觉感知：不仅仅是识别图像中的物体，而是要理解物体的**三维几何形状、材质、以及它们之间的空间关系（如 inside, behind, on top of）。

*基于物理的推理：理解物体在物理世界中的运动、交互和变化。例如，预测一个被推下的桌子上的物体将如何掉落，或者理解力与反作用力。

*具身智能与行动：将感知和推理转化为具体的行动。这通常是机器人技术的核心：规划路径、抓取物体、操作工具，以在复杂环境中完成特定任务。

3. 如何实现空间智能？

她提出了一个可行的技术路径，核心是构建 “具身AI”：

*生成式模拟器：创建高度逼真的**三维物理环境模拟器**。这些模拟器可以作为“训练场”，让AI在其中进行无数次试错学习，而无需在现实世界中付出昂贵或危险的代价。

*从互联网规模的3D数据中学习：就像LLM从互联网文本数据中学习一样，空间智能模型需要从海量的**三维数据**中学习，例如3D扫描模型、室内外场景重建数据、机器人交互数据等。

*具身智能体：在这些模拟环境中训练“智能体”，让它们通过第一人称视角与环境互动，学习“如果我做这个动作，会发生什么”，从而积累关于世界的常识。

4. 面临的挑战与未来展望

*挑战：获取和标注3D数据比2D图像更难；构建能够准确模拟复杂物理规律（如流体、柔软物体）的模拟器极具挑战；计算需求巨大。

*展望：李飞飞呼吁学术界和工业界共同努力，将目光投向这一新前沿。她相信，实现空间智能将是通向**通用人工智能** 道路上至关重要的一步，将使AI不仅能与我们对话，更能进入我们的世界，帮助我们解决实际问题。