十二个问题解剖 VLA，深度对话小米陈龙、上交穆尧

2025年末，首批L3级自动驾驶车型获得准入，标志着中国智能驾驶产业迈入新纪元。与此同时，具身智能机器人领域也在过去一年间经历了“天翻地覆”的变化，从2024年初“抓苹果都费劲”，到如今叠衣服已成为行业的入门任务，穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。

在这场技术跃迁的背后，一项被称为VLA（Vision-Language-Action，视觉语言动作大模型）的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的“条件反射”式决策，VLA将语言理解与推理能力引入物理世界的决策链路，赋予机器“看了就懂、懂了就做”的认知能力。

然而，VLA 的兴起也伴随着争议。在 2025 年世界机器人大会上，宇树科技创始人王兴兴公开质疑这一技术路线，引发行业热议。这场争论的背后，是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。

为深入探讨这一前沿技术的本质、挑战与前景，我们邀请到两位走在VLA研究最前沿的嘉宾：小米汽车智能驾驶 VLA 技术负责人陈龙，以及上海交通大学计算机学院助理教授、ScaleLab 负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角，为我们拆解 VLA 的技术内核，剖析数据困境与安全挑战，并回应来自产业界的质疑。

以下是本次对话的完整内容。

时间线：

00:04-01:20 开场：VLA是通往下一代通用人工智能的关键路径

01:20-08:13 一、什么是VLA？

08:13-12:24 二、VLA与端到端自动驾驶的区别

12:24-19:00 三、什么是长尾问题和泛化问题？

19:00-24:33 四、VLA不只是加了一层语言

24:33-29:16 五、机器人对语言的要求更高

29:16-32:40 六、自动驾驶与机器人能共用一套底座模型吗？

32:40-42:18 七、数据问题：自动驾驶vs机器人

42:18-45:55 八、安全性问题：如何保证VLA不出错？

45:55-54:28 九、实时性问题：VLA的延迟怎么解决？

54:28-01:00:05 十、思考与执行可以并行

01:00:05-01:04:22 十一、世界模型与空间智能：争论还是融合？

01:04:22-01:11:18 十二、如何看待对VLA技术的质疑？