Danfei Xu:人类数据,行为克隆,机器人的GPT-3,斯坦福,全栈机器人,EgoMimic,遥操作,UMIWhynotTV Podcast

Danfei Xu:人类数据,行为克隆,机器人的GPT-3,斯坦福,全栈机器人,EgoMimic,遥操作,UMI

137分钟 ·
播放数14621
·
评论数37

如果说大语言模型的跃迁,来自互联网沉淀下来的海量人类语言数据;那么在机器人世界里,是否也存在一种同样关键的数据?不是文字,不是图片,而是人拿起杯子、打开抽屉、穿过房间、和另一个人互动时,身体在物理世界里留下的痕迹。这个问题,正是我们这期节目最重要的关键词:human data,人类数据

本期嘉宾 Danfei Xu:

Danfei 一直把自己定义成一个 roboticist,机器人学家,不是只在屏幕上训练模型的人,而是那个愿意坐在机器人旁边,看它动、看它坏、再把它修好的人。从早年折腾单片机小车,到斯坦福几乎从零搭建 robot learning 系统;从不被看好的 behavior cloning,到今天思考 human data 如何成为机器人学习的底层燃料,他的技术主线始终不是单点算法,而是一个完整全栈问题:机器人到底怎样才能从人类的动作、经验和互动中,学会进入真实世界?

在这期节目里,我们会聊 Danfei Xu 如何走上机器人这条路,human data 会不会成为 robot learning 的 GPT moment的基石?人形机器人和人类数据究竟是谁成就谁?当机器人开始学习人的操作、人的身体、甚至人和人之间的互动,它的智能上限是什么?

这里是 WhynotTV Podcast。现在,请和我一起,走进Danfei Xu的世界。

--

00:02:00 - Danfei 为什么一直把自己定义为 roboticist

00:02:31 - 最早对机器人产生兴趣是在什么时候

00:03:27 - 小时候的 Danfei 是什么样的小孩

00:05:34 - 为什么高中时决定去美国读本科

00:06:18 - 一个人 DIY 申请美本的经历

00:08:44 - 从非主流选择到 Dickinson College

00:11:40 - 18岁前的经历如何塑造了对不确定性的适应力

00:12:51 - 本科为什么选择计算机和物理

00:13:47 - 大一大二 cold call 机器人公司做 research

00:16:19 - 在 SynTouch 做触觉传感器和 Shadow Hand 的经历

00:19:31 - 开车去 CMU 敲门做无人车 localization

00:21:05 - 本科时期的无人车数据采集与硬件系统

00:24:00 - 为什么 PhD 选择了当时“机器人荒漠”的 Stanford

00:26:34 - 2015年的 Stanford CS 和 deep learning 氛围

00:27:21 - PhD rotation 与早期 human data capture 的雏形

00:28:28 - 为什么放弃 scene graph 回到 robotics

00:30:18 - 2016-2017 年 robot learning 领域是什么样的

00:32:30 - One-shot imitation learning 与 Neural Task Programming

00:33:15 - 对 structure、compositionality 和 task motion planning 的反思

00:35:12 - 什么是 generative task and motion planning

00:36:12 - 在 DeepMind 暑研如何看到 behavior cloning actually works

00:38:57 - 什么是机器人里的 behavior cloning

00:40:16 - 为什么当时整个领域看不上 behavior cloning

00:42:27 - RSS 2020 behavior cloning paper 的前世今生

00:44:31 - 学术界如何评价真正 work 的系统性工作

00:46:14 - 为什么当时不相信 RL for robotics 能 scale up

00:47:33 - Behavior cloning 工作为什么当时没有引发范式转变

00:49:00 - 为什么没有继续做双臂和更大规模 teleoperation

00:49:45 - Behavior cloning 最难的为什么不是模型而是系统

00:50:57 - 回看 2020 年 teleoperation 方向的遗憾

00:52:53 - PhD 期间几段 internship 带来的认知变化

00:54:33 - 为什么 robotics 不能像自动驾驶一样被分工拆碎

00:54:59 - PhD 期间有哪些曾经相信、后来反思的方向

00:57:17 - 为什么最后决定去找教职

00:58:18 - 在资源密集时代,没有资源的学术自由还算自由吗

00:59:24 - 什么是 robot learning,它和传统 robotics 的区别是什么

01:01:24 - Robot learning 里最被高估和低估的东西是什么

01:01:53 - 什么是机器人数据,什么是人类数据

01:03:52 - EgoMimic 的起点:为什么相信第一人称 human data

01:04:00 - EgoMimic 的数据采集系统是怎么搭起来的

01:07:36 - 为什么为了 human data 自己搭了一个更像人的机器人

01:09:24 - 为什么从 teleoperation 转向 human data

01:11:40 - 从 ego video 里机器人到底能学到什么

01:15:20 - 为什么强调第一人称视频,而不是 YouTube 第三人称视频

01:17:09 - Robot learning 是否还缺一个类似 next-token prediction 的范式

01:18:21 - 从第一人称视频学打球、学技能的上限在哪里

01:20:17 - 为什么 SLAM / VIO 对 human data 如此重要

01:22:22 - 精确 action label 会不会只是过渡方案

01:24:07 - 今天 SLAM 的护城河在哪里

01:27:02 - 触觉 tactile 会在人类数据中扮演什么角色

01:30:16 - Human data 各种模态的重要性排序

01:32:27 - 什么是 UMI data,它到底是人类数据还是机器人数据

01:34:40 - Teleop、UMI 和纯 human data 的长期关系

01:36:35 - 五指灵巧手和人类数据 transfer 的关键瓶颈

01:38:21 - Human data 和人形机器人是一荣俱荣吗

01:38:50 - 机器人未来是 hardware lottery 还是 data lottery

01:39:46 - Human data 会不会把机器人锁死在人类水平

01:40:11 - 人和人的交互数据为什么是被低估的巨大空白

01:42:51 - 如果数据、算力、硬件无限,human data 的智能上限是什么

01:44:16 - 机器人如何获得类似互联网之于 LLM 的数据基础设施

01:47:22 - 要 behavior clone human 需要多少小时数据

01:48:17 - Human data 还没有统一标准,会不会造成巨大浪费

01:49:08 - 为什么“不经意的人类数据”比任务采集数据更重要

01:50:45 - Behavior clone 一个完整的人到底难在哪里

01:51:41 - Camera 会不会吞噬掉其他传感器模态

01:52:58 - 长期最有价值的 human data 会是什么

01:53:37 - Human data 采集会成为护城河还是 commodity

01:55:03 - EgoVerse 与 open collective efforts for academia

01:56:31 - Human data 的成功是否注定走向封闭商业化

01:57:30 - 机器人数据会不会像自动驾驶一样被主机厂绑定

01:58:31 - 如果 human data 没有成为 robot learning 的基石,可能错在哪里

01:59:39 - 为什么 full-stack robotics 如此重要

02:00:39 - Full stack 是什么都要自己造吗

02:01:25 - 一个 robotics 团队哪些东西必须 in-house

02:02:34 - Human data 会偏好什么样的 modeling method

02:03:26 - Human data 里的 System 1 / System 2 interface 会是什么

02:04:33 - 今天的机器人离 Betty the Crow 的智能还差多远

02:06:00 - 做教授后的 advising style 是什么

02:08:26 - 徐丹飞 lab 里坚持的价值观和文化

02:09:22 - 招学生最看重什么特质

02:09:36 - 学术界最吸引他的本质是什么

02:10:07 - 年轻 researcher 如何在工业界和学术界之间找到位置

02:11:10 - 2026年读 robotics PhD 比十年前更难还是更简单

02:12:30 - 如何判断一个方向只是看起来重要,还是会改变领域

02:13:47 - 徐丹飞的 career goal 与 robotics 的 GPT-3 moment

02:14:26 - 给年轻人的建议:学习研究者的 gradient,而不是只学结果

02:15:52 - 留给未来自己的时间胶囊

02:17:11 - 勇敢做自己想做的事:What's to lose?

展开Show Notes
司徒霸刚
司徒霸刚
2026.5.04
“learn from gradient not trajectories”这句话太有启发了,非常感谢Danfei 的分享。
28:31 在油管刷到了,好喜欢这期嘉宾啊。感觉他身上有一种很乐观很纯粹的感觉,包括 主动找寻机会,面对不确定性的兴奋,值得学习~^_^
叶安杰Alger:是的,真的有种由内而外生发的热情和开心
抢到neal的前排,先祝neal五一快乐!neal的视频/播客我都是三连再看,作为一个准高三生每周回家的精神支柱就是你的视频/播客,特别是Yuanming那期播客听了不下三遍,每次听都会有不一样的收获。真的很感谢neal能把播客做的这么好。每期嘉宾回答的都是那么的真诚、real、humble,而且neal的提问也同样深度、专业、硬核。一期期听过来,neal与嘉宾互动也更加好了,能挖出更多有效信息内容,neal一定要把这档播客做下去啊,我会一直支持你的。
林_FAOt
林_FAOt
2026.5.03
26:05 太震撼了 寻求不确定性
非常有意思的分享,听完开始对机器人智能产生了强烈的兴趣。不知道嘉宾能不能看到,想分享一点我的想法。抛开感觉和运动这些和物理世界交互的硬件层,单就描述运动的空间轨迹来说,我觉得三维空间坐标系根本不是一个保留了充分有效信息的框架,更不用说再把这个框架转换一道,变成视频信息,那就更失真了。我在想我们的有没有可能把运动的空间轨迹信息投影转换到一个类似于向量空间的坐标体系?我认为这可能是对运动的空间信息的更为有效的数据记录。
京一:你的理解有点偏差 robotics本来就不依靠3d笛卡尔坐标系 它本身就已经是在向量空间里了我们叫它State-Space Representation 你可以去了解一下joint space vector和feature vector 包括后面识别普遍的运动模式 方案也已经很成熟了 比如说ProMPs这种基于概率运动的
鲁西西_pS8v:基于此,我们可以逐渐识别出一些运动的普遍模式。
3条回复
ry就是ry
ry就是ry
2026.5.03
终于更新了🥹🥹从胡渊鸣那期开始关注到的
__HbKq
__HbKq
8天前
07:22 又是上南!姚顺雨也是这个学校的
__HbKq:*️⃣是妖顺宇
zz_nqy9
zz_nqy9
2026.5.01
第一,马上来学习哈哈!Neal五一快乐!
Nixon_Hu
Nixon_Hu
2026.5.06
这个老哥似乎搞数据挺厉害,他也承认第一视角只是一个选择,不是唯一最优解
Tui-
Tui-
2026.5.05
02:27 wow这个开头音效
Whitney
Whitney
2026.5.03
18:31 太富裕了哈哈哈
小政
小政
2026.5.03
地铁开听嘻嘻
sMrZhao
sMrZhao
7天前
感谢分享,博主内容很好,但是以后能不能采访中中英文夹杂的描述少一些,这样听着没有那么绕
奥迪:赞同,感觉这一期确实好多表达没必要英文的
Jammie_min
Jammie_min
2026.5.03
五一快乐!
babouche
babouche
2026.5.01
来了!! 五一快乐🎉
HD326924l
HD326924l
8天前
43:45 有没有人知道,用franka力控做了一套teleoperation,用来采集数据,这是哪一个工作