Danfei Xu：人类数据，行为克隆，机器人的GPT-3，斯坦福，全栈机器人，EgoMimic，遥操作，UMI

如果说大语言模型的跃迁，来自互联网沉淀下来的海量人类语言数据；那么在机器人世界里，是否也存在一种同样关键的数据？不是文字，不是图片，而是人拿起杯子、打开抽屉、穿过房间、和另一个人互动时，身体在物理世界里留下的痕迹。这个问题，正是我们这期节目最重要的关键词：human data，人类数据。

本期嘉宾 Danfei Xu:

Danfei 一直把自己定义成一个 roboticist，机器人学家，不是只在屏幕上训练模型的人，而是那个愿意坐在机器人旁边，看它动、看它坏、再把它修好的人。从早年折腾单片机小车，到斯坦福几乎从零搭建 robot learning 系统；从不被看好的 behavior cloning，到今天思考 human data 如何成为机器人学习的底层燃料，他的技术主线始终不是单点算法，而是一个完整全栈问题：机器人到底怎样才能从人类的动作、经验和互动中，学会进入真实世界？

在这期节目里，我们会聊 Danfei Xu 如何走上机器人这条路，human data 会不会成为 robot learning 的 GPT moment的基石？人形机器人和人类数据究竟是谁成就谁？当机器人开始学习人的操作、人的身体、甚至人和人之间的互动，它的智能上限是什么？

这里是 WhynotTV Podcast。现在，请和我一起，走进Danfei Xu的世界。

00:02:00 - Danfei 为什么一直把自己定义为 roboticist

00:02:31 - 最早对机器人产生兴趣是在什么时候

00:03:27 - 小时候的 Danfei 是什么样的小孩

00:05:34 - 为什么高中时决定去美国读本科

00:06:18 - 一个人 DIY 申请美本的经历

00:08:44 - 从非主流选择到 Dickinson College

00:11:40 - 18岁前的经历如何塑造了对不确定性的适应力

00:12:51 - 本科为什么选择计算机和物理

00:13:47 - 大一大二 cold call 机器人公司做 research

00:16:19 - 在 SynTouch 做触觉传感器和 Shadow Hand 的经历

00:19:31 - 开车去 CMU 敲门做无人车 localization

00:21:05 - 本科时期的无人车数据采集与硬件系统

00:24:00 - 为什么 PhD 选择了当时“机器人荒漠”的 Stanford

00:26:34 - 2015年的 Stanford CS 和 deep learning 氛围

00:27:21 - PhD rotation 与早期 human data capture 的雏形

00:28:28 - 为什么放弃 scene graph 回到 robotics

00:30:18 - 2016-2017 年 robot learning 领域是什么样的

00:32:30 - One-shot imitation learning 与 Neural Task Programming

00:33:15 - 对 structure、compositionality 和 task motion planning 的反思

00:35:12 - 什么是 generative task and motion planning

00:36:12 - 在 DeepMind 暑研如何看到 behavior cloning actually works

00:38:57 - 什么是机器人里的 behavior cloning

00:40:16 - 为什么当时整个领域看不上 behavior cloning

00:42:27 - RSS 2020 behavior cloning paper 的前世今生

00:44:31 - 学术界如何评价真正 work 的系统性工作

00:46:14 - 为什么当时不相信 RL for robotics 能 scale up

00:47:33 - Behavior cloning 工作为什么当时没有引发范式转变

00:49:00 - 为什么没有继续做双臂和更大规模 teleoperation

00:49:45 - Behavior cloning 最难的为什么不是模型而是系统

00:50:57 - 回看 2020 年 teleoperation 方向的遗憾

00:52:53 - PhD 期间几段 internship 带来的认知变化

00:54:33 - 为什么 robotics 不能像自动驾驶一样被分工拆碎

00:54:59 - PhD 期间有哪些曾经相信、后来反思的方向

00:57:17 - 为什么最后决定去找教职

00:58:18 - 在资源密集时代，没有资源的学术自由还算自由吗

00:59:24 - 什么是 robot learning，它和传统 robotics 的区别是什么

01:01:24 - Robot learning 里最被高估和低估的东西是什么

01:01:53 - 什么是机器人数据，什么是人类数据

01:03:52 - EgoMimic 的起点：为什么相信第一人称 human data

01:04:00 - EgoMimic 的数据采集系统是怎么搭起来的

01:07:36 - 为什么为了 human data 自己搭了一个更像人的机器人

01:09:24 - 为什么从 teleoperation 转向 human data

01:11:40 - 从 ego video 里机器人到底能学到什么

01:15:20 - 为什么强调第一人称视频，而不是 YouTube 第三人称视频

01:17:09 - Robot learning 是否还缺一个类似 next-token prediction 的范式

01:18:21 - 从第一人称视频学打球、学技能的上限在哪里

01:20:17 - 为什么 SLAM / VIO 对 human data 如此重要

01:22:22 - 精确 action label 会不会只是过渡方案

01:24:07 - 今天 SLAM 的护城河在哪里

01:27:02 - 触觉 tactile 会在人类数据中扮演什么角色

01:30:16 - Human data 各种模态的重要性排序

01:32:27 - 什么是 UMI data，它到底是人类数据还是机器人数据

01:34:40 - Teleop、UMI 和纯 human data 的长期关系

01:36:35 - 五指灵巧手和人类数据 transfer 的关键瓶颈

01:38:21 - Human data 和人形机器人是一荣俱荣吗

01:38:50 - 机器人未来是 hardware lottery 还是 data lottery

01:39:46 - Human data 会不会把机器人锁死在人类水平

01:40:11 - 人和人的交互数据为什么是被低估的巨大空白

01:42:51 - 如果数据、算力、硬件无限，human data 的智能上限是什么

01:44:16 - 机器人如何获得类似互联网之于 LLM 的数据基础设施

01:47:22 - 要 behavior clone human 需要多少小时数据

01:48:17 - Human data 还没有统一标准，会不会造成巨大浪费

01:49:08 - 为什么“不经意的人类数据”比任务采集数据更重要

01:50:45 - Behavior clone 一个完整的人到底难在哪里

01:51:41 - Camera 会不会吞噬掉其他传感器模态

01:52:58 - 长期最有价值的 human data 会是什么

01:53:37 - Human data 采集会成为护城河还是 commodity

01:55:03 - EgoVerse 与 open collective efforts for academia

01:56:31 - Human data 的成功是否注定走向封闭商业化

01:57:30 - 机器人数据会不会像自动驾驶一样被主机厂绑定

01:58:31 - 如果 human data 没有成为 robot learning 的基石，可能错在哪里

01:59:39 - 为什么 full-stack robotics 如此重要

02:00:39 - Full stack 是什么都要自己造吗

02:01:25 - 一个 robotics 团队哪些东西必须 in-house

02:02:34 - Human data 会偏好什么样的 modeling method

02:03:26 - Human data 里的 System 1 / System 2 interface 会是什么

02:04:33 - 今天的机器人离 Betty the Crow 的智能还差多远

02:06:00 - 做教授后的 advising style 是什么

02:08:26 - 徐丹飞 lab 里坚持的价值观和文化

02:09:22 - 招学生最看重什么特质

02:09:36 - 学术界最吸引他的本质是什么

02:10:07 - 年轻 researcher 如何在工业界和学术界之间找到位置

02:11:10 - 2026年读 robotics PhD 比十年前更难还是更简单

02:12:30 - 如何判断一个方向只是看起来重要，还是会改变领域

02:13:47 - 徐丹飞的 career goal 与 robotics 的 GPT-3 moment

02:14:26 - 给年轻人的建议：学习研究者的 gradient，而不是只学结果

02:15:52 - 留给未来自己的时间胶囊

02:17:11 - 勇敢做自己想做的事：What's to lose?