EP06｜红杉2026 Jim Fan：机器人学的终局已至 - NovaAI笔记

NVIDIA 机器人学负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的这场 20 分钟演讲，被他自己称为 "机器人学的终局宣言"。他的核心主张非常大胆：机器人学的玩法书已经写好了——直接抄 LLM 的作业，把字符串模拟换成物理世界模拟，终点就在 2040 年。

本期节目，我们来逐段拆解 Jim 提出的 "大平行理论"（The Great Parallel）：为什么视频世界模型将取代 VLA 成为机器人学的新基础，为什么自我中心视频（egocentric video）将取代遥操作成为数据主粮，以及为什么他敢给出 "2-3 年内通过物理图灵测试" 的时间预测。

嘉宾简介

Jim Fan，NVIDIA 具身智能与自主研究组（NVIDIA Robotics）负责人。2016 年以实习生身份加入 OpenAI，在 DGX1 揭幕现场与 Andrej Karpathy 一起排队签名。他领导的研究涵盖视频世界模型、世界动作模型（DreamZero）、灵巧操作数据策略（EgoScale / DexOoi）和大规模神经仿真（DreamDojo）。

本期亮点

大平行理论：抄 LLM 的作业
Jim 把 LLM 的三步演进（预训练 → 对齐 → 自动研究）完整映射到机器人学。不是模拟字符串，而是模拟下一个物理世界状态。世界模型替代语言模型，自我中心视频替代遥操作，世界动作模型（WAM）替代 VLA。

VLA 为什么死了？
Jim 的批评毫不留情：VLA 本质上是 VLM 加了一个动作头，参数大部分花在语言上，语言是一等公民，视觉和动作是二等公民。他引用 VLA 原始论文的 "Taylor Swift 可乐罐" 例子，讽刺这根本不是预训练该有的泛化能力。他给 VLA 的墓志铭："长眠吧 VLA，世界动作模型万岁。"

Physics Slop：垃圾视频里的世界模型
Sora 看起来是 AI 视频娱乐，但 Jim 指出它内部已经学会了重力、浮力、光照、反射、折射——没有任何物理代码写进去，物理是通过大规模预测像素涌现出来的。他甚至展示 Sora 在像素空间里用模拟来解迷宫。

DreamZero：视频预测对了，动作就对了
DreamZero 是世界动作模型（World Action Model），同时解码下一个世界状态和下一个动作。Jim 发现视频预测与动作预测高度相关——视频预测对了动作就对，视频幻觉了动作就失败。这意味着可以通过视觉来诊断和控制机器人策略质量。

数据三级跳：遥操作 → 可穿戴 → 自我中心视频
遥操作每台机器人每天最多 3 小时，上限锁死。可穿戴手套（UMI / DexOoi）把人类手部直接接入数据采集。EgoScale 用 21,000 小时人类野外视频做预训练，零机器人数据，动作微调只用 4 小时遥操作。更惊人的是：灵巧性存在干净的神经扩展律——这是 LLM 扩展律六年后首次在机器人学被复现。

DreamDojo：iPhone 就是口袋世界扫描仪
用 iPhone 扫描物理环境 → 自动合成到经典物理模拟器 → 无限增强 "数字表亲" 变体。更进一步，DreamDojo 把视频世界模型变成纯神经模拟器：没有真实像素，没有物理方程，没有图形引擎，输入动作输出下一帧。

🎯 终局三成就与 2030 年时间线
Jim 用《文明》技术树来比喻：① 物理图灵测试（2-3 年内）；② 物理 API + 原子打印机式全自动工厂；③ 物理自动研究——机器人自己造下一代机器人。从 AlexNet 到 AI Ascent 只用了 14 年，再加 14 年到 2040 年，95% 置信度。