英伟达机器人主管Jim Fan近日在X上对2025年具身智能行业的工作做了年度回顾,表达了机器人领域仍处于蛮荒时代、当前机器人硬件可靠性不足,反而限制了软件的迭代速度,以及主流的VLM→VLA技术范式本身也存在结构性问题等观点。
原文链接:x.com
以下是全文:
所有人都在为“氛围编码”(vibe coding)而疯狂。趁着节日气氛,也请允许我分享一下我对机器人这个“西部荒野”领域的焦虑。以下是我在 2025 年学到的三条教训:
1. 硬件领先于软件,但硬件可靠性严重限制了软件的迭代速度。
我们已经看到了像 Optimus、新版 Atlas、Figure、Neo 和 G1 等精湛的工程艺术品。然而,我们最顶尖的 AI 还没能榨干这些前沿硬件的全部潜力——身体的机能远强于大脑的指挥能力。
但是,照看这些机器人需要一整个运营团队。与人类不同,机器人的“淤青”无法自愈。过热、电机损坏、诡异的固件问题每天都在困扰着我们。在这里,错误是不可逆且无法容忍的。
在这个过程中,唯一得到规模化增长(Scale)的只有我的耐心。
2. 机器人领域的基准测试(Benchmarking)依然是一场史诗级灾难。
大模型圈的人觉得 MMLU 和 SWE-Bench 是常识。但在机器人领域,请收起这种想法。没人能在任何事情上达成共识:无论是硬件平台、任务定义、评分准则、模拟器,还是真实世界的设置。按照定义,每个人在自己为发布新闻而临时定义的基准测试中,都是“行业最高水平”(SOTA)。每个人都在从 100 次尝试中挑选最漂亮的那次演示。
作为一个领域,我们在 2026 年必须做得更好,不能再把“可重复性”和“科学严谨性”当成二等公民。
3. 基于 VLM 的 VLA 模型感觉不对劲。
VLA 代表“视觉-语言-动作”模型,一直是机器人大脑的主流方案。其配方很简单:取一个预训练好的 VLM(视觉语言模型)检查点,然后在上面嫁接一个动作模块。
但仔细想想,VLM 是为了在“视觉问答”等基准测试中登顶而过度优化的。这意味着两个问题:
- 参数分配不均:VLM 中的大多数参数是为了语言和知识服务的,而不是为了物理规律;
- 特征丢失:视觉编码器在主动学习如何“丢弃”底层细节,因为问答只需要高层级的理解。然而,对于精细操作(Dexterity)来说,微小的细节至关重要。
VLA 的性能没有理由随着 VLM 参数的规模化而同步提升。预训练的目标错位了。视频世界模型(Video World Model)似乎是机器人策略更好的预训练目标。我在此押下重注。
