Vol.10 对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

本期播客根据晚点Atuo对小马智行的文字报道《对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化》制作，作者晚点团队。

本期简介

本期对谈小马智行 CTO 楼天城，围绕 L4 Robotaxi 的技术路线、小马智行世界模型 1.0/2.0 的演进，以及 AI 如何改变自动驾驶研发范式展开。

楼天城认为，L4 Robotaxi 与 L2 量产智驾并不是同一条技术路径。单纯依赖人类驾驶数据的模仿学习，无法突破 L4 所需的安全性与泛化能力。小马智行从 2020 年开始转向世界模型与强化学习，用虚拟环境训练车端模型，并在近年进一步发展出具备自我诊断、自我反馈能力的世界模型 2.0。

对谈中，楼天城解释了为什么 L2 的积累很难直接迁移到 L4，为什么世界模型的核心不在于“有没有”，而在于“精度有多高”，以及 AI 正如何从辅助工程师，变成驱动研发流程的“裁判”和“任务分配者”。他还谈到 Robotaxi 的商业化扩张、高速与卡车场景、AI coding、物理 AI，以及他对世界模型终局的思考：从自动驾驶走向更广义的物理世界模型，甚至理解微观世界的运行机制。

核心要点

L4 Robotaxi 与 L2 量产智驾不是同一条技术路线。
楼天城认为，L2 因为有人类司机兜底，可以依靠数据规模和快速迭代推进；但 L4 必须在无人接管下保证极高安全性，单靠 L2 的量产积累无法自然走向 L4。
模仿学习无法突破 L4 的能力天花板，世界模型与强化学习成为关键路径。
小马智行从 2020 年开始意识到，仅模仿人类驾驶很难继续提升 Robotaxi 表现，因此转向用虚拟环境生成场景、评估行为，并通过强化学习训练车端模型。
世界模型 2.0 的核心变化，是让 AI 接管诊断、反馈和研发驱动。
相比 1.0 主要依赖工程师判断问题，2.0 会自动分析车端模型表现、识别薄弱场景并推动改进，楼天城将其视为 AI for development 的雏形。
自动驾驶的竞争壁垒不只是模型，而是完整的物理 AI 系统。
Robotaxi 需要同时解决模型、仿真、传感器冗余、车端部署、安全机制、运营和监管问题，因此单一大模型能力并不能直接“降维打击”自动驾驶公司。
世界模型的终局可能超越自动驾驶，走向更广义的物理世界建模。
楼天城认为，未来世界模型可能扩展到机器人、具身智能乃至微观物理世界，用 AI 帮助人类理解真实世界如何存在与运转。