王兴兴说了VLA很差,我们聊了聊为什么|Hao好聊 X 赵昊Hao好聊

王兴兴说了VLA很差,我们聊了聊为什么|Hao好聊 X 赵昊

37分钟 ·
播放数806
·
评论数8

2025年世界机器人大会上,宇树科技CEO王兴兴称VLA(视觉语言动作)模型“比较傻瓜式”,引发巨大争议。这场争论的核心直指当下火热的具身智能浪潮:这究竟是革命性技术突破,还是资本催生的概念包装?

自2023年谷歌发布RT-2以来,VLA模型席卷全球,机器人领域融资额激增(2025年前5个月达232亿元)。VLA的逻辑——让机器人理解自然语言并直接输出控制信号——被视为通往AGI的重要路径,引发资本狂热。

然而,清华大学智能产业研究院助理教授,智源学者赵昊认为,王兴兴的批评“击中了要害”。赵昊指出,VLA热潮是“旧酒装新瓶”,是“高大上”的强化学习(RL)路线走不通后的“无奈之举”。

赵昊揭示了技术演进的真相:最初学术界(如Sergey Levine)试图用“性感”的强化学习让智能体自我探索,但“效果没太好”,机器人缺乏泛化能力(“换一个门就开不了了”),导致“大家不知道怎么发论文了”。因此,研究者最终转向了“逼格最低”的模仿学习(Imitation Learning)。

赵昊称,VLA对应的模仿学习是“最古老的模式识别”,“因为你都模仿了,就是相当于我把真实标签给你了”。

这场VLA之争,背后是AI发展史上不断重复的范式之争。赵昊认为,这标志着具身智能正从沉迷于在抽象数据集上“刷分”,回归到解决真实世界问题的“拨乱反正”。

本期时间线:

02:18  在具身智能领域,"Nothing New Happens"

03:47 深度学习(DL)如何“改变一切”?

05:00 AlexNet革命为啥这么重要

07:57 深度学习成功的三要素

11:42 VLA确实low,因为他是它从RL到IL的无奈退守

13:47 为什么VLA现在火了?因为没别的可投了

16:48 最Low的模仿学习(IL)vs 性感的强化学习(RL)

18:14 CV界近些年其实经历了“拨乱反正”

23:35 世界模型是个最古老的概念,但具身智能必须以它为前提

26:55 到底什么是“世界模型”?

29:31 世界模型有三条路,背后是CV界上古三大“学派”

33:19 Sim-to-Real(仿真到现实)并不难解决

主播| 郝博阳

嘉宾|赵昊

编辑| 博阳 可君

展开Show Notes
wrz_s5yU
wrz_s5yU
2025.11.18
有声音 但是讲了一半就结束了
没声音?
郝小贱
:
已更新,现在有了。。。
时间里的飞人_ZfHs:刚试了,还是没声音
3条回复
错女士
错女士
2025.11.12
没声音。。。就上线了?
R_Mutt
R_Mutt
2025.11.12
没声音
为什么没声音