十二个问题解剖 VLA,深度对话小米陈龙、上交穆尧DeepTalk

十二个问题解剖 VLA,深度对话小米陈龙、上交穆尧

72分钟 ·
播放数131
·
评论数1

2025年末,首批L3级自动驾驶车型获得准入,标志着中国智能驾驶产业迈入新纪元。与此同时,具身智能机器人领域也在过去一年间经历了“天翻地覆”的变化,从2024年初“抓苹果都费劲”,到如今叠衣服已成为行业的入门任务,穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。

在这场技术跃迁的背后,一项被称为VLA(Vision-Language-Action,视觉语言动作大模型)的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的“条件反射”式决策,VLA将语言理解与推理能力引入物理世界的决策链路,赋予机器“看了就懂、懂了就做”的认知能力。

然而,VLA 的兴起也伴随着争议。在 2025 年世界机器人大会上,宇树科技创始人王兴兴公开质疑这一技术路线,引发行业热议。这场争论的背后,是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。

为深入探讨这一前沿技术的本质、挑战与前景,我们邀请到两位走在VLA研究最前沿的嘉宾:小米汽车智能驾驶 VLA 技术负责人陈龙,以及上海交通大学计算机学院助理教授、ScaleLab 负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角,为我们拆解 VLA 的技术内核,剖析数据困境与安全挑战,并回应来自产业界的质疑。

以下是本次对话的完整内容。

时间线:

00:04-01:20 开场:VLA是通往下一代通用人工智能的关键路径

01:20-08:13 一、什么是VLA?

08:13-12:24 二、VLA与端到端自动驾驶的区别

12:24-19:00 三、什么是长尾问题和泛化问题?

19:00-24:33 四、VLA不只是加了一层语言

24:33-29:16 五、机器人对语言的要求更高

29:16-32:40 六、自动驾驶与机器人能共用一套底座模型吗?

32:40-42:18 七、数据问题:自动驾驶vs机器人

42:18-45:55 八、安全性问题:如何保证VLA不出错?

45:55-54:28 九、实时性问题:VLA的延迟怎么解决?

54:28-01:00:05 十、思考与执行可以并行

01:00:05-01:04:22 十一、世界模型与空间智能:争论还是融合?

01:04:22-01:11:18 十二、如何看待对VLA技术的质疑?

展开Show Notes
ddd1112
ddd1112
10天前
干货满满