15个问题,搞懂具身大模型的现状及未来

15个问题,搞懂具身大模型的现状及未来

59分钟 ·
播放数679
·
评论数1

hi,这里是硅基觉醒。

这是一档围绕AI前沿技术与商业变革的节目,汇聚AI创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来,迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们!

2023年下半年具身智能开始获得关注,创业团队开始涌动,2024年国内涌现了超50个具身智能公司,获得了百亿元的资金投入。毫无疑问,具身智能是除了语言大模型以外最吸金的创业赛道。然而,由于具身智能的发展仍处早期,这也是充斥着泡沫的一个赛道。去伪存真,关注本质,本轮机器人及具身智能赛道的火爆,技术侧到底有何进步?2025年了,具身智能的大模型走到哪一步了?玄而又玄的世界模型究竟是什么?本期我们将用15个问题,厘清具身大模型以及世界模型的发展现状。

【主持人】

Harry,7年一级市场投资经验,AGI信徒。

【本期嘉宾】

Patrick,丰富的具身大模型、多模态大模型研究经验。曾获得AI顶会杰出论文奖。

徐超逸,具身领域研究员,曾就职于智源研究院、银河通用机器人,研究方向为移动抓取、三维视觉、遥控操作等。目前加入智在无界,师从卢宗青做相关研究。

史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。

小苏,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。

【本期内容】

🟢 Part 1 具身智能大模型

00:02:16 第1问:什么是具身大模型?

00:04:55 第2问:具身大模型发展处于什么阶段?

00:09:54 第3问:过去两年,具身智能研究最重要的3篇成果是什么?

00:14:39 第4问:端到端的具身大模型是确定性趋势?

🟢 Part 2 VLA模型(Vision-Language-Action Model)

00:18:35 第5问:什么是VLA模型?

00:22:11 第6问:VLA模型是如何训练的?有什么技术差异

00:28:39 第7问:VLA模型解决泛化问题了吗?目前的泛化性如何?

00:33:00 第8问:具身智能的数据成本有多高?怎么解决数据难题?

00:39:18 第9问:具身智能如何解决硬件百花齐放的问题?

🟢 Part 3 世界模型

00:42:19 第10问:什么是世界模型?

00:44:13 第11问:为什么视频生成模型SORA不是世界模型?

00:46:25 第12问:世界模型如何应用于具身智能领域?

00:49:20 第13问:VLA模型与世界模型,未来是什么关系?

00:51:13 第14问:世界模型目前最大的瓶颈是什么?

00:54:24 第15问:具身智能下一个最值得期待的突破是什么?

【本期播客提到的公司或名词】

VLA模型,指的是 Vision Language-Action Model(视觉-语言-动作模型)。简单来说,它是一种将视觉感知、语言理解与动作生成紧密集成在一起的多模态人工智能模型。VLA模型的核心目标是让机器人或智能体能够直接根据视觉输入(如摄像头看到的场景)和语言指令(如“请把桌上的蓝色杯子递给我”)来理解任务、规划并输出具体的动作控制信号(如关节运动、抓取、移动等),从而在真实物理环境中完成任务。

RT-2模型,是全球首个将视觉语言模型(VLM)与机器人控制直接结合的VLA模型,通过将动作编码为语言Token,实现跨模态语义推理。2023年由谷歌Deepmind推出。

π0模型,是由Physical Intelligence公司开发的通用机器人控制模型,基于视觉-语言-动作(VLA)架构,它采用流匹配(Flow Matching)技术建模连续动作分布,生成高频率(50Hz)运动指令,适应叠衣物、装箱等灵巧操作需求。

Diffusion模型,扩散模型是一种通过逐步添加和去除噪声来生成数据的深度学习模型,其核心原理分为正向扩散(添加噪声)和逆向去噪(生成数据)两个过程。该模型在图像、文本生成领域表现突出。在具身智能领域,π0通过流匹配技术将diffusion模型引入到具身智能模型当中。

GraspNet模型,由卢策吾团队构建的通用物体抓取框架,实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取。 GraspNet首次将PPH(picks per hour)指标超越人类水平。

UMI,Universal Manipulation Interface,由斯坦福大学提出的用于机器人操作的通用数据采集接口。它是一种数据收集和策略学习框架,允许将技能从人类演示直接转移到可部署的机器人上的策略。

欢迎订阅「硅基觉醒」播客

🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。

欢迎加入「硅基觉醒」部落,成为首批村民

🔮 与资深AI学者、创业者、投资人深入交流

🤖 寻觅你的技术与商业化伙伴,共商AI创业大计

📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】

展开Show Notes
Baca
Baca
2025.6.06
有些收获 感谢扫盲VLA类模型