EP 44.【AI年终特辑3】具身智能深度对话:从学术到产业,机器人的ChatGPT时刻来了吗?

EP 44.【AI年终特辑3】具身智能深度对话:从学术到产业,机器人的ChatGPT时刻来了吗?

111分钟 ·
播放数7597
·
评论数35

今年 OnBoard! 最后一期压轴上新!今年要谈论人工智能,怎么能错过这么一个重要的话题:机器人与AI的结合,或者说,Embodied intelligence, 具身智能。

大模型的思路是否能带来机器人的ChatGPT时刻?机器人要具备泛化能力,有哪些进展又有哪些瓶颈?通过机器人让人工智能具备与环境感知和交互的能力,会为通用人工智能AGI带来哪些新的想象空间?

Hello World, who is OnBoard!?

今年下半年以来,尤其在国内,已经有不下十几家具身智能创业公司涌现。这一轮热潮中,从学术到工业落地,如何分别噪音与真实?以前将AI应用于机器人的尝试,比起这次的技术突破,又有哪些相同与不同?

这次的嘉宾阵容,真是太适合回答这些问题了:

我们邀请了 Google DeepMind 的研究员Fei Xia,Deepmind 跟具身智能相关的最重磅的几个研究,从SayCan, PaLM-E,到 RT2,他都是核心参与者。还有来自国内头部机器人创业公司高仙机器人的深度学习总监 Jiaxin, 带来产业界的视角。以及 UCSD 的研究员 Fanbo Xiang,他参与的 Maniskill,SAPIEN 等与模拟环境相关的研究,都在学术前沿。

我们对AI泛化能力在机器人领域的落地进行了深入的讨论,也有不同观点的碰撞,精彩纷呈。

其实这一期的录制已经过去了几个月,阴差阳错成了今年的压轴,也算是对于OnBoard 全年的一个圆满句号,又是整个OnBoard 旅程小小的逗号。新的一年,不论世界如何起落,我们都选择相信未来有希望,珍惜每一次对话,赞美每一个在未知中选择的勇士。

Enjoy!

嘉宾介绍

Fei Xia, Google Deepmind 机器人团队资深研究员,PhD @Stanford University;PaLM-E,  PaLM-SayCan, RT-2 作者

Jiaxin Li, 高仙机器人深度学习总监,ex字节跳动研究员,PhD @National University of Singapore

Fanbo Xiang, PhD @UC San Diego;ManiSkill, SAPIEN 作者

OnBoard! 主持:

Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

02:47 几位嘉宾的自我介绍,主要的研究领域

05:34 大家最近看到的与具身智能相关的有意思的研究和行业进展

14:23 自动驾驶领域的生成模型,如何保证符合物理规律?

18:34 如何定义具身智能?什么是测试机器人AGI 的“咖啡测试” ?

27:59 梳理 Google Deepmind 机器人领域核心研究脉络:大模型对具身智能带来怎样的影响?

40:29 Fanbo 在做的 low level 控制相关的研究,如何与大模型相结合?

45:39 具身智能的实现目前有哪些主要技术路径?我们什么时候可以达到共识?

50:40 从产业落地的角度,如何看待大模型对机器人领域的影响?有哪些现实的挑战?

67:37 什么时候需要机器人具备通用能力?我们需要端到端的具身智能吗?

72:47 对 Scaling law 的争议:在机器人领域能复现吗?如何平衡长期通用性研究和短期商业落地的需要?

90:41 在具身智能系统的设计中,如何考虑加入人机互动的因素?

96:29 硬件的发展会如何影响具身智能的发展?

101:18 未来3-5年,大家最期望看到具身智能领域实现怎样的突破?有怎样值得期待的未来?

重要论文和词汇

我们提到的公司

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励!

如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!

有任何心得和建议,也欢迎在评论区跟我们互动~

展开Show Notes
1:19:52 这位嘉宾牛啊,场面话一点也不说,正面直接硬怼,主持人给的台阶完全无视 😂
就是喜欢这么坦诚的嘉宾👍👍👍
蒋建平Alan:这位嘉宾确实很坦诚,但是就话题展开,用产品落地的标准去challenge前沿探索性的研究,约等于要求公鸡下蛋,强人所难。scaling law的样本数量少的一个原因是能花钱验证这事的公司很少。
王波_podcast:牛个啥呀,他自己就是瞎怼人.自己说的world model 更不靠谱.
7条回复
Diiiiiiiii
Diiiiiiiii
2024.1.19
这是 Onboard!最近质量较高的一期,算是一个对具身智能领域现状的综述,内容比较丰富。对于我这种小白来说,是很好的一次科普。下面是一些个人的 learning。

具身智能领域的图灵测试叫做 coffee test,是 Steve Wozniak 提出的,让一个机器人走入一间没见过的寻常美式厨房,然后做一杯咖啡。机器人需要先在厨房里找到所有做咖啡需要用的设备,比如说杯子、咖啡豆、咖啡粉、勺子等等(需要借助 high level reasoning 来分析语义线索,比如说勺子通常放在炉子旁边的抽屉里),然后通过 low-level manipulation 来完成操作,比如磨咖啡,比如把咖啡粉放到滤纸上。

可见,具身智能的大逻辑可以被拆解为 High level reasoning + Low level manipulation:

- High level reasoning 是指机器如何理解人类的指令(尤其是一些抽象的指令,比如“我饿了”),并转化成一个可以执行的指令。难点在于指令本身可能是模糊的,有不同的 solutions,另外并非每个 solution 都能在机器人上执行。传统思路是是分步来做,在 language model 和 task motion planning 之间找一个平衡,最后给出一个 plan。

- Low level manipulation 是指机器如何与环境交互来完成指令,传统思路是sense+plan+act,先通过各种 Vision 的 Model 去找到抓取点,再通过算法给出 移动的Planning,最后再通过 Robotic Control 的算法去完成这个 Task。传统方法对于抓取、开门、拉抽屉这类标准化任务有相当高的成功率,但任务一旦非标或复杂一些就搞不定了,并且泛化性很差。目前主流的方法有两类,一是 Reinforcement Learning,通过和环境交互,去学习应该执行什么样的 policy 才能够拿到更高 reward;二是 Learning from Demonstrations,包括 imitation learning(模仿学习)、Behavioral Cloning(行为克隆)等,可以在一些给定的环境里,对特定的 task 给出一些解,然后让机器人通过这些成功的 trajectory 去构建一些更加general的robot policy。比如前一段刷屏的ALOHA 就是在用模仿学习的方式来完成各种复杂任务,比如炒虾等等,背后都是人类用远程操纵的方法在教机器一些解法。


跳出上述分步走的框架,一个新的思路是端到端的方法,同时完成High level reasoning 和 Low level manipulation,比如 RT2 就是把动作也当成一门新的语言来构建 Vision Language Model,同时理解世界知识、环境和动作,进而产生泛化性,甚至可以完成 Chain of Thoughts 的推理,比如可以理解“帮我从桌上的玩具里抓取一只已经灭绝的动物”这种指令,成功地把恐龙玩具抓出来。这个新的端到端的思路很像 software 2.0 逐渐侵蚀 software 1.0 的过程,随着模型泛化性的提高,software1.0 的各个子模块在逐一被语言模型所替代掉。


目前具身智能领域的局限,首先是数据不足,而 AIGC 的进展有助于解决这个问题,尤其是 3D内容的生成以及 task 生成能力,可以帮助具身智能研究来生成大量的模拟场景与环境,用合成数据的方式来解决数据和素材不足的痛点,类似于自动驾驶中的仿真数据。同时,如果生成过程中使用了Vision Language Model,相当于把生成模型和推理模型统一起来,有助于整体模型的训练与迭代。

另一个局限是泛化能力不足的问题,上面说的端到端的方法正在尝试解决。目前具身智能领域还没有到 transformer 的时刻,更别说 chatgpt moment。因此,这是行业共同努力的方向。

至于高仙机器人的嘉宾所提到的可靠性的问题,我个人认为是落地的问题,现阶段讨论还太早,价值不大。嘉宾提到的端到端不如传统分步走靠谱的问题,个人认为最终的 solution 一定是端到端的,自动驾驶现在已经回到这条路上了。和端到端相比,分步走的过程中加入了太多人为的理解和假设,损失了太多原始信息,注定效果是差的。至于嘉宾不相信 scaling law 的问题 - scaling law 原本就不是一个物理定律,而是一种信仰,是基于经验的阶段共识。它无法被证明,就好像摩尔定律无法被证明一样,纠结在这个问题上没有实际意义。
raze0ver
raze0ver
2024.1.01
太干货了,太干了,我喜欢,再干点🔥🔥🔥 如果有赞助支持渠道我一定氪金…
莫妮卡同学
:
太感动了!2024年第一天就在听 OnBoard! 可以在每一集下面点击赞赏支持哈哈~
zurrix
zurrix
2023.12.30
Scaling law确实不能说实证, 但是the bitter lessons 一定要引申到资源本身的运用上有点强词夺理了.
阿诺德
阿诺德
2024.1.06
大规模预训练+微调是个很有前途的范式,sergey levine组已经做出来了,不需要simulator,直接在物理世界试错,二十分钟就能学会走路
不知道QwQ:个人觉得sergey的offline路线未来还得进一步scale up(比如action-free data)才有可能,真要落地必须得zero-shot
不知道QwQ:说实话我觉得关于scaling law吵架挺正常的,今年CoRL还专门针对这个问题举行了辩论,我自己短期内也不太信robotics里有scaling law
3条回复
1:24:18 高仙那个哥们吧,拿工业界的落地怼学界的前沿观察探索,自己还觉得挺爽,不知道咋想的.鸡同鸭讲,根本没和人家一个频道.
丁俊峰_P44c:人家说的很实际 真正落地和科研gap巨大
Nathan-SAHH
Nathan-SAHH
2024.1.23
1:28:43 研究者和管理者视角的不同。
谢少平
谢少平
2023.12.30
不会做美式咖啡的扫地机器人不是 AGI 时代的具身机器人
OldPassive
OldPassive
2024.2.20
小助手加不上啦
Chert
Chert
2024.2.06
1:40:55 第一次听到这么解读bitter lesson的…😅
1:14:02 不是,这哥们 这是在怼scaling law 吗,这有什么好争论的,去看看deepmind 和openai的论文就好了啊,我们可以认为现在openai还活着的唯一原因就是他们发现了scaling law 并确信这是某种真理,然后基于这个才在2020年找的微软的投资。
Mr_Curiosity:我觉得高仙的哥们从产业界角度这么说挺合理的,虽然挺scaling law的那位本身就是deep mind的研究者,他们有一线的数据以及自己的坚持,但论文从来就不是真理啊,从托勒密到哥白尼,他们的论文也只是分享自己对宇宙的少量观测并提出假说,就像现在的scaling law一样。现在AI的研究可以说还在前牛顿时代,没有什么是不能被challenge的,资本的投资也只是人才和模型效果给了他们信心,而不意味着他们掌握了某种真理。
kyle_EcGT
kyle_EcGT
2023.12.30
真高产,期待agent主题
陈雄辉
陈雄辉
8天前
主持人问的问题水平有待提升
onboard有没有小红书的号呀?
Yogamumbling
Yogamumbling
2024.2.23
这一期太精彩了,deepmind和英伟达未来几周好像都要有新的发布,还能再出相关话题吗?
PLF
PLF
2024.2.20
1:03:10 赞,嘉宾分析的很透彻👍👍👍
Nathan-SAHH
Nathan-SAHH
2024.1.23
1:06:51 这个兄弟的底层逻辑非常强,1st Principle! 赞!
brainzhang
brainzhang
2024.1.13
不敢相信两个小时的节目,我竟然听了三遍。就是这么精彩😁
咫尺流年
咫尺流年
2024.1.04
好硬核有点听不懂 但是大概能勾出个轮廓知道前沿在干嘛 也不错~
52:34 赞同