王兴兴说了VLA很差，我们聊了聊为什么｜Hao好聊 X 赵昊 - Hao好聊

2025年世界机器人大会上，宇树科技CEO王兴兴称VLA（视觉语言动作）模型“比较傻瓜式”，引发巨大争议。这场争论的核心直指当下火热的具身智能浪潮：这究竟是革命性技术突破，还是资本催生的概念包装？

自2023年谷歌发布RT-2以来，VLA模型席卷全球，机器人领域融资额激增（2025年前5个月达232亿元）。VLA的逻辑——让机器人理解自然语言并直接输出控制信号——被视为通往AGI的重要路径，引发资本狂热。

然而，清华大学智能产业研究院助理教授，智源学者赵昊认为，王兴兴的批评“击中了要害”。赵昊指出，VLA热潮是“旧酒装新瓶”，是“高大上”的强化学习（RL）路线走不通后的“无奈之举”。

赵昊揭示了技术演进的真相：最初学术界（如Sergey Levine）试图用“性感”的强化学习让智能体自我探索，但“效果没太好”，机器人缺乏泛化能力（“换一个门就开不了了”），导致“大家不知道怎么发论文了”。因此，研究者最终转向了“逼格最低”的模仿学习（Imitation Learning）。

赵昊称，VLA对应的模仿学习是“最古老的模式识别”，“因为你都模仿了，就是相当于我把真实标签给你了”。

这场VLA之争，背后是AI发展史上不断重复的范式之争。赵昊认为，这标志着具身智能正从沉迷于在抽象数据集上“刷分”，回归到解决真实世界问题的“拨乱反正”。

本期时间线：

02:18 在具身智能领域，"Nothing New Happens"

03:47 深度学习（DL）如何“改变一切”？

05:00 AlexNet革命为啥这么重要

07:57 深度学习成功的三要素

11:42 VLA确实low，因为他是它从RL到IL的无奈退守

13:47 为什么VLA现在火了？因为没别的可投了

16:48 最Low的模仿学习（IL）vs 性感的强化学习（RL）

18:14 CV界近些年其实经历了“拨乱反正”

23:35 世界模型是个最古老的概念，但具身智能必须以它为前提

26:55 到底什么是“世界模型”？

29:31 世界模型有三条路，背后是CV界上古三大“学派”

33:19 Sim-to-Real（仿真到现实）并不难解决

主播｜郝博阳

嘉宾｜赵昊

编辑｜博阳可君