121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google张小珺Jùn|商业访谈录

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

126分钟 ·
播放数35969
·
评论数70

今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。

中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。

本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。

前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。

由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。

02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人

嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学

从图形学转型机器人的变轨

我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用

Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型

大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)

13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet

今天的机器人发展到什么阶段了?

从demo到真正落地,隔十年并不是一个非常夸张的事

从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型

但多模态模型缺什么呢?缺少robot action的输出

当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争

23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情

最大的问题还是数据问题

但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情

它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的

现在有很多startup叫data factory(数据工厂)

所谓“数据金字塔”包括哪些?

27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀

Gemini Robotics 1.5最重要的发现是什么?

第一个是我们把“thinking”加入了VLA模型

第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)

Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分

它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制

当你要一个unify model(统一模型)的时候,它必须非常大

Motion Transfer?It’s very secret

47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段

我们比较重视的一点还是数据、数据、数据

遥操作是非常难以获取的数据

我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据

真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据

在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代

我信仰的是scalable data

01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像

世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧

从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型

当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是

世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像

01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件

如果你有灵巧手,触觉就非常重要

之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件

现在还在夹爪时代

在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题

在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态

如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)

01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”

这几年Google AI或者robotics的研究文化上有没有发生过变化?

不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情

像Gemini Robotics,它更多是自上而下

我发觉好像国内不一定比我卷,我一周可能工作70到80个小时

真的,这个时代真的是等不起,不然别人都做出来了

AI有很多是数学,华人数学比较好

《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》

《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》

【更多信息】

本集的文字版本已发布,请搜索我们工作室的官方公众号:

语言即世界language is world

展开Show Notes
AI-Nate
AI-Nate
2025.11.30
44:33 如果有人想更多了解Motion Transfer
Website: motiontrans.github.io
Paper: arxiv.org/abs/2509.17759
Roucher_:908个小时!follow了哥😱
YihangWang
YihangWang
2025.11.28
害,酷家乐还在,而且是杭州六小龙了
evanzh7:杭州小龙有点多
树杨
树杨
2025.11.29
1:32:39 谷歌都工作 70 到 80 个小时,感觉我们太不努力了😮‍💨
馁肆巨粑改:google多少工资我们多少
wy-bobcove:所以你是因为不想工作 70 到 8 个小时,才不去谷歌工作的吗?
Jee-Jee
Jee-Jee
2025.11.28
非常精彩,受益匪浅👍
黑羽快斗
黑羽快斗
2025.12.04
很喜欢有这类逻辑表达能力的人(盲猜不是intp就是intj)。

其实很多时候关于一些问题的讨论,得出不同结论的关键在于大家都是站在各自优势的趋势线上,并取得了一些正反馈的情况下,强化了自己的判断。综合来看,很多对技术路径的判断,最终能否被验证,拼的是落地的能力,以及对这些关键问题在整个解决方案中所赋予的权重。所以,孤立地看待问题,判断一种说法或趋势是对是错,是不够客观理性的,需要代入对应的上下文与应用场景去判断才有效,且能够有所收获。

最终还是那句话:在一个面向未来,没有标准答案且快速变化的市场下,真正重要的是敢想敢干能落地。
疾走劳拉
疾走劳拉
2025.11.30
嘉宾的逻辑和表达都非常清晰👍
天际放猪
天际放猪
2025.12.01
最后两本书叫啥
冬阳Sunshine:Start with why 7 habits of highly effective people
天际放猪:谢谢
小逸Louie
小逸Louie
2025.11.29
1:43:31 记录访谈中的的一段问答,“问:如果机器人拥有了智力,那么是机器还是人呢?答:那人工智能是,人工还是智能?这个可能不是特别重要。”

从访谈中也获悉,不只是AI团队,机器人团队目前华人的比例很高。如果继续推导,从国家的选择上来说,人才似乎只有2个选择了。

作为一名土生土长的上海人,欢迎谭捷先生常回中国,常回上海看看~
生而为猫奴:不至于吧,国家选择的有很多呀😂新能源,ESG,文旅,养老……真正的人才不会只跟风的
HD963717x
HD963717x
2025.12.02
这期的嘉宾好厉害,表达清晰,思路严谨。
榛橡
榛橡
2025.12.08
2:05:30 非常赞 start with why✅
涵_9sBL
涵_9sBL
2025.12.02
本期的嘉宾不会局限于一个技术大神的定位,表达清晰易懂,不会用太多过于专业的词汇,好适合做播客
Lagnar
Lagnar
2025.12.02
感觉不止是他乃至几家巨头,完全不在乎自己做成超智能之后的世界会是怎样,单纯就是想造出来,从人类的贪婪和好胜欲中成长起来。
AI-Nate
AI-Nate
2025.11.30
42:51 我觉得这里的reward function可以用一个多模态模型来代替。直接让模型判断图片是否任务完成。可以试试。
Kevin186
Kevin186
2025.12.28
超出期望值,听晚了
HD435081z
HD435081z
2025.12.23
讲的挺好,bet on scalable data
讲的很明白,应该是我听过的很多具身智能播客里最没有水分的一期
田大人
田大人
2025.12.19
这哥们好会表达,说得深入浅出,举的例子也都很好,喜欢此类会表达的科学家
哈罗斯
哈罗斯
2025.12.01
听完,感觉robotics和Waymo是不是将来要合并成一个team了
elegantlang
elegantlang
2025.11.30
43:31 向前走路不要摔倒 这个数学上的reward太好写了
笑死,喜欢牛马可还行