2025年世界机器人大会上,宇树科技CEO王兴兴称VLA(视觉语言动作)模型“比较傻瓜式”,引发巨大争议。这场争论的核心直指当下火热的具身智能浪潮:这究竟是革命性技术突破,还是资本催生的概念包装?
自2023年谷歌发布RT-2以来,VLA模型席卷全球,机器人领域融资额激增(2025年前5个月达232亿元)。VLA的逻辑——让机器人理解自然语言并直接输出控制信号——被视为通往AGI的重要路径,引发资本狂热。
然而,清华大学智能产业研究院助理教授,智源学者赵昊认为,王兴兴的批评“击中了要害”。赵昊指出,VLA热潮是“旧酒装新瓶”,是“高大上”的强化学习(RL)路线走不通后的“无奈之举”。
赵昊揭示了技术演进的真相:最初学术界(如Sergey Levine)试图用“性感”的强化学习让智能体自我探索,但“效果没太好”,机器人缺乏泛化能力(“换一个门就开不了了”),导致“大家不知道怎么发论文了”。因此,研究者最终转向了“逼格最低”的模仿学习(Imitation Learning)。
赵昊称,VLA对应的模仿学习是“最古老的模式识别”,“因为你都模仿了,就是相当于我把真实标签给你了”。
这场VLA之争,背后是AI发展史上不断重复的范式之争。赵昊认为,这标志着具身智能正从沉迷于在抽象数据集上“刷分”,回归到解决真实世界问题的“拨乱反正”。
本期时间线:
02:18 在具身智能领域,"Nothing New Happens"
03:47 深度学习(DL)如何“改变一切”?
05:00 AlexNet革命为啥这么重要
07:57 深度学习成功的三要素
11:42 VLA确实low,因为他是它从RL到IL的无奈退守
13:47 为什么VLA现在火了?因为没别的可投了
16:48 最Low的模仿学习(IL)vs 性感的强化学习(RL)
18:14 CV界近些年其实经历了“拨乱反正”
23:35 世界模型是个最古老的概念,但具身智能必须以它为前提
26:55 到底什么是“世界模型”?
29:31 世界模型有三条路,背后是CV界上古三大“学派”
33:19 Sim-to-Real(仿真到现实)并不难解决
主播| 郝博阳
嘉宾|赵昊
编辑| 博阳 可君


