2025年末,首批L3级自动驾驶车型获得准入,标志着中国智能驾驶产业迈入新纪元。与此同时,具身智能机器人领域也在过去一年间经历了“天翻地覆”的变化,从2024年初“抓苹果都费劲”,到如今叠衣服已成为行业的入门任务,穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。
在这场技术跃迁的背后,一项被称为VLA(Vision-Language-Action,视觉语言动作大模型)的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的“条件反射”式决策,VLA将语言理解与推理能力引入物理世界的决策链路,赋予机器“看了就懂、懂了就做”的认知能力。
然而,VLA 的兴起也伴随着争议。在 2025 年世界机器人大会上,宇树科技创始人王兴兴公开质疑这一技术路线,引发行业热议。这场争论的背后,是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。
为深入探讨这一前沿技术的本质、挑战与前景,我们邀请到两位走在VLA研究最前沿的嘉宾:小米汽车智能驾驶 VLA 技术负责人陈龙,以及上海交通大学计算机学院助理教授、ScaleLab 负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角,为我们拆解 VLA 的技术内核,剖析数据困境与安全挑战,并回应来自产业界的质疑。
以下是本次对话的完整内容。
时间线:
00:04-01:20 开场:VLA是通往下一代通用人工智能的关键路径
29:16-32:40 六、自动驾驶与机器人能共用一套底座模型吗?
42:18-45:55 八、安全性问题:如何保证VLA不出错?
45:55-54:28 九、实时性问题:VLA的延迟怎么解决?

