112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人晚点聊 LateTalk

112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

82分钟 ·
播放数7316
·
评论数36

「伯克利 BAIR 博士、清华叉院助理教授,跳进具身创业。」

高阳是清华大学交叉信息研究院的助理教授,同时也是具身智能公司千寻的联合创始人和首席科学家。

高阳在具身智能领域深耕多年,他是清华计算机系本科,UC Berkeley 博士,师从国际计算机视觉大师 Trevor Darrell。在 2016 年时,他就和许华哲一起做了端到端自动驾驶的课题,这在当时是个小众的方向,但如今已经成为自动驾驶行业的共识。

这几年在具身智能领域崭露头角的早期公司,多多少少有 UC Berkeley 学子的身影——刚才提到的许华哲是星海图的首席科学家,星动纪元的创始人陈建宇、最近刚刚加入估值最高的智元机器人的罗建兰,都曾在 UC Berkeley 深造过;创立边塞科技的吴翼也是毕业于 UC Berkeley。

在 2024 年,高阳与有产业经历的韩峰涛共同创立了千寻,千寻在非共识中找到的切入点是端到端+具身大脑+机器人本体+互联网视频预训练、模仿学习、强化学习。成立至今,千寻已经获得了四轮融资。最近他们也发布了VLA Spirit v1 的 demo,机器人可以叠衣服了。

这次我们不仅聊到了高阳的技术理解,也聊到了他的思维方式和过往经历。

创业者们都在尝试怎么把机器人做得更像人,而高阳像一个融入人类世界的机器人:他从不熬夜,早晨七点半“开机”,每天骑 31-33 分钟的共享单车前往工作地点,在每周固定时间健身;他相信 COT(Chain-of-Thought,思维链),认为所有事情都可以按照 COT 一步一步走向结果,不仅是生活,也包括学术研究和创业,甚至“一步一步,每一个链条都做好,自然会导向具身智能的 L2、L3 的实现”。

这位 91 年出生的具身研究者和创业者,不倾向输出斩钉截铁的结论,但他相信他推理出的一切,不管和别人的声音是否一致。

本期嘉宾:
高阳,千寻智能首席科学家,清华叉院助理教授,个人主页(内有邮箱联系方式)

时间线跳转:

-“中国速度”在具身智能的体现:修机器
02:02 创业 moment:科学家能做的探索越来越少,这在大语言模型领域已经发生
04:09 团队搭建:产业老炮+年轻科学家
07:18 Figure 02 的 demo 很好,展示了快慢系统
09:38 中国相对美国优势在于修机器人快,不然修机器人的速度赶不上做实验的速度
12:12 具身智能的阶段划分
14:23 现在中国具身智能在从 L1 到 L2 的路上

-机器人必须得是“人”形吗?
14:41 机器人不一定是人形,但 L2 以后可能需要双臂+轮式底盘
15:31 没有操作、只有移动,不能解决主要矛盾
18:52 双足不难,没有本质的卡点
21:31 虽然操作重要,但一定得有上半身吗?其实是从成本角度考虑的,像“人”一定可行
23:53 人形机器人,到底是更精细分工,还是更泛化?

-“端到端是走向具身智能的共识,分层只是短期工程选择”
27:00 端到端(VLA,Vision-Language-Action)是现在具身智能的共识吗?
28:53 训练过程:互联网视频预训练、模仿学习、强化学习
29:51 为什么叠衣服这样的操作会成为具身智能领域的“智商测试”?
34:14 快慢系统在叠衣服这件事里怎么配合的?
35:35 当前机器人的主要挑战是泛化性

-“人是分布式,机器人是中心式”
36:28 视频数据的可用量只有 1%,机器人学习怎么操作、预测轨迹
38:44 人类的肌肉记忆,机器人也有
43:33 跨任务泛化:强化学习成功率取决于基模的训练和 SFT(监督微调 Supervised Fine-Tun-ing)
45:00 具身智能也有 Scaling Laws 吗?做到 GPT3.5,可能需要 100 亿条有效数据、1 亿遥操数据、几千万强化学习数据
49:05 Scaling Laws 在仿真数据不成立

-“具身智能做到 GPT-4 那种程度还得5年”
50:32 为什么只做大脑不行?驯化新的躯体很难的
51:55 为什么只做本体不行?价值在大脑端,现在有了大脑能力才引起的风潮
53:06 机器人未来会像汽车产业链
55:10 关于朱啸虎说的没有商业化,高阳觉得现在最重要的还是把技术做好
56:41 行业何时收敛?当具身智能走向 L2 时
57:57 现在具身智能的瓶颈还是在 AI,要补齐才能成为“木盆”

-个人成长:一位信奉 COT 的“小天才”
59:35 伯克利“归国几子”的介绍
01:01:27 同一个实验室的,还有许华哲、贾扬清等
01:03:22 2016 年博士最开始做自动驾驶,那时端到端自动驾驶还不被相信
01:06:41 学术不需要灵光乍现,个人的思考方式就是 COT
01:07:11 所以在明年 6 月具身智能会到 L2,再过一年半到两年 L3
01:07:34 读书时在 waymo 实习三个月:感觉脑子要坏掉了
01:10:15 读博想创业,但没好机会;毕业后回国做科研,伯克利“归国几子”兼职“HR”
01:12:43 跟许华哲最近讨论:看起来具身智能是个非共识行业,但这已经是坍缩、收敛后的结果
01:15:54 大学教授出来创业,会拍拍屁股走人吗?
01:17:37 一个崇尚规律的 ISTJ:不熬夜、骑共享单车上下班、规律健身

相关链接:
晚点聊 86:We,Robot-2,清华叉院/星海图许华哲看“Optimus”的门道
晚点聊 65:信仰充值的威力,与逐际谌华聊 GTC 和人形机器人新进展
晚点聊 40:与梅卡邵天兰聊通用机器人,AI 的下一个浪潮?

剪辑制作:甜食

本期主播:即刻 @王与桐

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
曼祺_MatchQ
:
其中许华哲 和这期的高阳是伯克利 BAIR 博士时期的同学,他们都是 Trevor Darrell 的学生。
冬阳Sunshine:这期和之前几期问题多有重复,嘉宾的观点也是一致的,信息增量不大。
3条回复
香放
香放
2025.4.29
看错标题........
曼祺_MatchQ
:
😄
乌龟搬家:我也 emmm
王与桐
王与桐
2025.4.29
这期是晚点聊第 N 次聊具身智能。高阳出身“具身智能”名门正派,也更相信目前具身智能或者人形机器人最大的瓶颈或者价值点在于大脑,具身智能一样需要好的基模,一样需要预训练,一样需要大量的数据。
尽管目前行业的非共识很多,但在高阳看来,这已经是坍缩、收敛后的结果。比如就端到端VLA还是分层路径,虽然行业内并没有完全达成共识,但他认为端到端就是未来,分层模型是短期工程选择。
他还认为现阶段的具身智能能力已经到了与智能驾驶中 L1 相似的阶段,正在接近 L2——单场景、多任务;再过一年半,具身智能就能达到 L2;在大部分场景,直到 L4——单一场景做任何事——之前,双足不是必须。
具身智能领域每过 2-3 个月就会有技术变化和故事新篇,随着宇树机器人登上春晚舞台,具身智能赛道更加热闹。高阳给热闹的春天加了注脚。
HD656956z:多学习曼琪,多读点书,提些有深度的问题。没有深刻的思想、就无法呈现精彩的谈话
王pm
王pm
2025.4.30
能不能都让曼祺来播啊~~ 声音比较有高智感
熊yy:主要是这一期主播有点像迷妹 哈哈
曼祺_MatchQ
:
不同风格,与桐很活泼,能发掘访谈对象的天马行空、奇思妙想的一面。不同听友可能也会有不同风格偏好。 比如我之前聊高阳伯克利博士时同学,星海图的联创许华哲,评论说听着像面试或竞调。 另外感谢所有反馈,可以帮助之后有更好的内容。
4条回复
HD136523y
HD136523y
2025.4.29
这期对高阳具老师的访谈对机器人领域的未来研究确实受益匪浅。
ytdqwl:高阳老师……
这期的主播带着太多自己主观assumption...
HD656956z:是的她老爱讲我觉得,老爱讲她的观点。大家不想听那些肤浅观点。总是要考虑下听众吧,本来就是来听嘉宾的
普诚诚
普诚诚
2025.5.02
主播的滤镜和幻觉太高了。先yy了一个采访对象。
无聊的猪
无聊的猪
2025.5.03
41:39 人类的“肌肉记忆”也未必是肌肉保存了记忆
无聊的猪:没想到主播一直在讨论肌肉记忆,能把话题交还嘉宾吗?
今日与高博面对面了😁
工程上的事就是要不停的试,是吗?什么鬼
突然提高音量 吓一跳 后期能不能注意一下衔接
壹零壹零
壹零壹零
2025.5.02
嘉宾有点无精打采
嘿虎hey
嘿虎hey
2025.4.30
感谢科普,感觉快速get了行业现状,后续还会有机器人相关的内容吗?
豆Jayce
豆Jayce
2025.4.29
非常有趣的腦洞集
哎呦喂呀嘿
哎呦喂呀嘿
20小时前
主持人可以少说话…
科研者出来创业的理由是科学范式(paradigm)转移完成带来的研究性工作的收缩,此时研究者红利下降,工程师红利上升。

范式转移的自然延展是:problem → knowledge → solution → engineering

VLA ➕ 快慢思考的工程化需要经验数据,这意味着没办法仅仅依靠逻辑推理就能拿到圣杯,那么快慢思考的“风洞实验”是什么?

修复的越快代表恢复能力越强,一个人的生命力体现在恢复力上,一个国家的生命力也一样。

以智能维度划分的行业阶段: L0 工业机器人;L1 单一任务解决者;L2 固定场景多任务解决者;L3 固定场景通用任务解决者;L4 多场景通用任务解决者。

人形与非人形机器人的决策点在于具身智能所处的环境是为什么主体打造的,如果是手工劳动密集场景,则人形更优。

现阶段的技术共识:端到端>分层架构;现阶段的技术方案:端到端≈VLA

高阳对具身智能架构的理解:端到端产品 = 具身大脑 + 机器人 Body。
具身大脑 = VLA 模型 = 互联网数据预训练 + 遥操数据微调 + 强化学习 = 100 亿有效数据 + 1 亿遥操数据 + 千万级强化学习数据

叠衣服是 L1 阶段具身智能的试金石:柔性材料带来的状态数爆炸让手搓变得不可能,模型必须要理解连续的真实世界。

下一步“L2 阶段”的挑战:机器人的泛化性提升难题

人的肌肉记忆是某种强化学习数据

非共识:想要实现具身智能的 GPT-3.5 时刻,需要 4-5 年
遥操也存在 scaling law

身心之争:只做大脑,缺乏操作身体的能力。只做身体缺乏最大的价值——通用性带来的底层革命与成本的非线性下降。
身体很重要,但没那么重要
王强_Andy
王强_Andy
2025.5.29
46:51 这里的算力需求如何?有多大?
芒丽
芒丽
2025.5.13
好年轻
HD783578y
HD783578y
2025.5.07
感觉采访人有点迷妹😆,狂问人家私生活,哈哈哈。看来可能被采访对象挺帅的,又足够优秀,可能很多异性都会有好感。
Twind
Twind
2025.5.01
主播挺可爱的