如果说大语言模型的跃迁,来自互联网沉淀下来的海量人类语言数据;那么在机器人世界里,是否也存在一种同样关键的数据?不是文字,不是图片,而是人拿起杯子、打开抽屉、穿过房间、和另一个人互动时,身体在物理世界里留下的痕迹。这个问题,正是我们这期节目最重要的关键词:human data,人类数据。
本期嘉宾 Danfei Xu:
Danfei 一直把自己定义成一个 roboticist,机器人学家,不是只在屏幕上训练模型的人,而是那个愿意坐在机器人旁边,看它动、看它坏、再把它修好的人。从早年折腾单片机小车,到斯坦福几乎从零搭建 robot learning 系统;从不被看好的 behavior cloning,到今天思考 human data 如何成为机器人学习的底层燃料,他的技术主线始终不是单点算法,而是一个完整全栈问题:机器人到底怎样才能从人类的动作、经验和互动中,学会进入真实世界?
在这期节目里,我们会聊 Danfei Xu 如何走上机器人这条路,human data 会不会成为 robot learning 的 GPT moment的基石?人形机器人和人类数据究竟是谁成就谁?当机器人开始学习人的操作、人的身体、甚至人和人之间的互动,它的智能上限是什么?
这里是 WhynotTV Podcast。现在,请和我一起,走进Danfei Xu的世界。
--
- Danfei 为什么一直把自己定义为 roboticist
- 最早对机器人产生兴趣是在什么时候
- 小时候的 Danfei 是什么样的小孩
- 为什么高中时决定去美国读本科
- 一个人 DIY 申请美本的经历
- 从非主流选择到 Dickinson College
- 18岁前的经历如何塑造了对不确定性的适应力
- 本科为什么选择计算机和物理
- 大一大二 cold call 机器人公司做 research
- 在 SynTouch 做触觉传感器和 Shadow Hand 的经历
- 开车去 CMU 敲门做无人车 localization
- 本科时期的无人车数据采集与硬件系统
- 为什么 PhD 选择了当时“机器人荒漠”的 Stanford
- 2015年的 Stanford CS 和 deep learning 氛围
- PhD rotation 与早期 human data capture 的雏形
- 为什么放弃 scene graph 回到 robotics
- 2016-2017 年 robot learning 领域是什么样的
- One-shot imitation learning 与 Neural Task Programming
- 对 structure、compositionality 和 task motion planning 的反思
- 什么是 generative task and motion planning
- 在 DeepMind 暑研如何看到 behavior cloning actually works
- 什么是机器人里的 behavior cloning
- 为什么当时整个领域看不上 behavior cloning
- RSS 2020 behavior cloning paper 的前世今生
- 学术界如何评价真正 work 的系统性工作
- 为什么当时不相信 RL for robotics 能 scale up
- Behavior cloning 工作为什么当时没有引发范式转变
- 为什么没有继续做双臂和更大规模 teleoperation
- Behavior cloning 最难的为什么不是模型而是系统
- 回看 2020 年 teleoperation 方向的遗憾
- PhD 期间几段 internship 带来的认知变化
- 为什么 robotics 不能像自动驾驶一样被分工拆碎
- PhD 期间有哪些曾经相信、后来反思的方向
- 为什么最后决定去找教职
- 在资源密集时代,没有资源的学术自由还算自由吗
- 什么是 robot learning,它和传统 robotics 的区别是什么
- Robot learning 里最被高估和低估的东西是什么
- 什么是机器人数据,什么是人类数据
- EgoMimic 的起点:为什么相信第一人称 human data
- EgoMimic 的数据采集系统是怎么搭起来的
- 为什么为了 human data 自己搭了一个更像人的机器人
- 为什么从 teleoperation 转向 human data
- 从 ego video 里机器人到底能学到什么
- 为什么强调第一人称视频,而不是 YouTube 第三人称视频
- Robot learning 是否还缺一个类似 next-token prediction 的范式
- 从第一人称视频学打球、学技能的上限在哪里
- 为什么 SLAM / VIO 对 human data 如此重要
- 精确 action label 会不会只是过渡方案
- 今天 SLAM 的护城河在哪里
- 触觉 tactile 会在人类数据中扮演什么角色
- Human data 各种模态的重要性排序
- 什么是 UMI data,它到底是人类数据还是机器人数据
- Teleop、UMI 和纯 human data 的长期关系
- 五指灵巧手和人类数据 transfer 的关键瓶颈
- Human data 和人形机器人是一荣俱荣吗
- 机器人未来是 hardware lottery 还是 data lottery
- Human data 会不会把机器人锁死在人类水平
- 人和人的交互数据为什么是被低估的巨大空白
- 如果数据、算力、硬件无限,human data 的智能上限是什么
- 机器人如何获得类似互联网之于 LLM 的数据基础设施
- 要 behavior clone human 需要多少小时数据
- Human data 还没有统一标准,会不会造成巨大浪费
- 为什么“不经意的人类数据”比任务采集数据更重要
- Behavior clone 一个完整的人到底难在哪里
- Camera 会不会吞噬掉其他传感器模态
- 长期最有价值的 human data 会是什么
- Human data 采集会成为护城河还是 commodity
- EgoVerse 与 open collective efforts for academia
- Human data 的成功是否注定走向封闭商业化
- 机器人数据会不会像自动驾驶一样被主机厂绑定
- 如果 human data 没有成为 robot learning 的基石,可能错在哪里
- 为什么 full-stack robotics 如此重要
- Full stack 是什么都要自己造吗
- 一个 robotics 团队哪些东西必须 in-house
- Human data 会偏好什么样的 modeling method
- Human data 里的 System 1 / System 2 interface 会是什么
- 今天的机器人离 Betty the Crow 的智能还差多远
- 做教授后的 advising style 是什么
- 徐丹飞 lab 里坚持的价值观和文化
- 招学生最看重什么特质
- 学术界最吸引他的本质是什么
- 年轻 researcher 如何在工业界和学术界之间找到位置
- 2026年读 robotics PhD 比十年前更难还是更简单
- 如何判断一个方向只是看起来重要,还是会改变领域
- 徐丹飞的 career goal 与 robotics 的 GPT-3 moment
- 给年轻人的建议:学习研究者的 gradient,而不是只学结果
- 留给未来自己的时间胶囊
- 勇敢做自己想做的事:What's to lose?

