165: 英伟达 GEAR 高深远:世界模型、自进化循环、DreamDojo晚点聊 LateTalk

165: 英伟达 GEAR 高深远:世界模型、自进化循环、DreamDojo

109分钟 ·
播放数13283
·
评论数31

本期《晚点聊》,我与刚从港科大博士毕业的一位年轻研究者高深远,他从去年开始在英伟达实习,接下来马上会正式加入英伟达的具身智能实验室 GEAR。

我们聊了深远 2024 年以来一直专注的方向:世界模型。

前 1 个多小时,我们展开了整个世界模型的大图景:它的分类?它是为了解决什么问题?它的现状、瓶颈和未来方向,以及各主要公司的思路。

很多人认为世界模型的说法太模糊、涵盖太多,这是一些早期技术的常见现象,这期正好厘清,目前有哪些做世界模型的方法和思路。

后一部分,我们聊了GearLab 在世界模型上的一些实践。尤其是去年底至今,他们陆续发布的世界模型 DreamDojo,(深远是这个工作的联合一作)以及被认为有可能会取代 VLA 的世界动作模型 DreamZero 的研发历程和具体创新点。也延展聊了世界模型可能的竞争局面。

深远描绘了他认为非常有前景的一种自进化循环——它由世界模型、策略模型(如 VLA、WAM 等)和连接二者的 Agent 构成。在英伟达,世界模型和策略模型有 DreamDojo-DreamZero 的组合,在 DeepMind 有 Genie-SIMA的组合。以下的图示更容易帮助理解播客里的讨论。


图注:图中大脑代表 agent,机器人代表 policy,地球代表世界模型,中间是数据集。世界模型的输出(对世界下一刻的预测)是 agent 的输入,供 agent 给预测打分,打分可用以优化 policy;同时世界模型的输出也是 policy 的输入,而 policy 的输出(动作)是世界模型的输入。同时,agent 也给 policy 做任务规划。
世界模型到 agent 和 policy 是用视频/图像通信;policy 到世界模型是用 action 通信;agent 到 policy 是用文本通信;agent 优化 policy 可以是一个打分数值,也可以是由文本媒介转过来的一种分数信号。

本期节目的图文版也已经发布:与英伟达 GEAR 高深远聊世界模型、自进化循环和 DreamDojo

本期嘉宾:高深远,英伟达 GEAR 研究员
本期主播:程曼祺,《晚点 LatePost》科技报道负责人

剪辑:Nick、甜食

时间线跳转:
- 世界模型大图景
02:19 世界模型是什么? 施加动作,预测世界下一刻的状态
05:35 多 Agent(车/机器人)互联的世界模型
09:57 按世界状态的表征方式分类: 4 种世界模型
15:33 最看好 video 世界模型, 因为数据够丰富
19:36 世界模型为何热起来? 数据增多 + 策略模型变强了

- 世界模型、策略模型和 Agent 的自进化循环
21:42 策略是什么?和世界模型的关系
23:39 WAM(DreamZero)相比 VLM 的变化
28:26 世界模型的一大价值是服务策略: 测评、生成数据、突破物理限制的虚拟强化学习
33:42 循环三要素: 世界模型、策略、Agent,它们如何彼此连接、优化

- 世界模型的未来
43:07 当前最大瓶颈,突破泛化: 物理的泛化、动作的泛化
51:49 世界模型难以横评, 难以直观看到不同模型的差别
55:28 各团队的世界模型进展: DeepMind、Nvidia、OpenAI、General Intuition

- 从自动驾驶到具身,从 AI Lab 到 GEAR
01:02:44 “在学界继续做自动驾驶世界模型没意思了”
01:06:30 加入 GEAR,DreamDojo 和 DreamZero 的发起
01:14:12 在英伟达构建最大规模 Human Center 数据
01:21:05 跨本体的 Latent action,以后还需要吗?
01:28:41 DreamDojo 的评测: 自建 6 个 benchmark 的逻辑
01:34:50 自己不掌握视频基模,能做出有竞争力的世界模型吗?

- 01:45:44 连点成线

相关链接:
157 期:【具身季报 26Q1】宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手
150 期:【年末AI回顾】从模型到应用、从技术到商战,拽住洪流中的意义之线|Solo
148 期:它石智航陈亦伦:具身的三道曙光和第一道关卡

附录:一些名词解释
- 级联误差,Cascade Error:指在包含多个串联模块或阶段的系统中,前一阶段产生的误差未被纠正,直接传递给下一阶段,误差被放大。
- Genie(Generative Interactive Environments):DeepMind 团队发布的基础世界模型。它能通过一张图或一段文字描述生成一个动作可控的虚拟世界。目前发布到 Genie 3
- SIMA(Scalable Instructable Multiworld Agent):DeepMind团队开发的虚拟角色策略模型(DeepMind 称其为 Agent),能理解玩家用自然语言下达的指令(如“向左转”、“拿起斧头”),在 Genie 等各种虚拟环境中操控角色执行任务(产生动作)。
-** Intuition**:一家希望打造空间智能的美国创业公司。

小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
置顶
图文版发布了:https://mp.weixin.qq.com/s/5CI_EK9Dh1f5MPrnI83K_Q?from=groupmessage&isappinstalled=0&scene=1&clicktime=1779239037&enterid=1779239037
同具身机器人从业者,不得不感慨这期干货太多了
这逻辑就跟股票虚拟盘一样,构造一个和真实股市一样的镜像股市,虚拟盘去操盘
157: 【具身季报_26Q1】宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手 中讨论的 Top 5 进展之一就是英伟达的系列成果:DreamDojo、DreamZero、Ego Scale。

这一期,我就邀请了 DreamDojo 的联合一作高深远,分享他眼中的“世界模型”。

深远看到了一个正在形成的“自进化循环”,它由三个互相优化的部分组成:世界模型、策略(VLA 和现在 DreamZero 的 WAM 等)和连接二者的 Agent。一旦相互强化的正循环出现,可能会出现一种突破物理时空限制的实验和训练条件。这和 DeepMind 哈萨比斯讲述的“用 SIMA 在 Genie 里做科学实验”的想法类似。

这种循环真能出现吗?今天我们 mark 一下,未来再见。
yizishou
yizishou
3天前
记笔记:世界模型,policy,Agent
银蓝228:记笔记:世界模型,policy,Agent……
eloge
eloge
3天前
这一期太干了,我打算再听一遍(尤其是B掉的那两个公司,好好笑)
曼祺_MatchQ
:
其实是 某公司的某某 这样的句式
Yila111
Yila111
3天前
第一次清晰地分清楚了wm和wam的作用!
Yila111
Yila111
3天前
第一次觉得需要把倍数调低🥲
_YE0N
_YE0N
3天前
比如机器人拿一个鸡蛋和拿一个杯子用多少力度机器人从视频里如何学习?
小盆迪:Hi您好,我是受访者本人。我不确定触觉这块是不是被剪掉了哈哈哈,我记得也聊到了,但简单来说就是相机也可以看作一种触觉传感器。举个极端一点的例子来说比如你的相机拍摄足够清晰(想象显微镜级别的度数),那其实就能根据表面的形变情况来推断出力度,所以也是有可能通过data-driven的方式实现对力度的粗略估计。当然我赞同在触觉传感器的耐用度和标准化显著提升之后,加进来会更好。
小盆迪:非常好的问题btw!
6条回复
哥们速度太快了,太干了
曼祺_MatchQ
:
可以慢速一点
1:32:30 我觉得只有解决了分布外预测才能具有真正的创新能力…当然机器人不需要什么创新能力 但是AGI需要
wong1908
wong1908
15小时前
在逻辑上梳理和收敛了世界模型的发展路径和方向,对于行业观察者和投资人很有启发,向探索者表示敬意。
听了半天不知道policy是啥
曼祺_MatchQ
:
比如 VLA 就是一种 policy,让机器人行动的策略。可以看 shownotes 里的图示,更清楚。
时间里的飞人_ZfHs:谢谢曼琪祺老师
Vince_AI
Vince_AI
2天前
26:41 有点夸张hhh
whoissp
whoissp
2天前
纯路人外行小白发问。为啥具身非得模拟人?有手有脚我理解,毕竟很多场景要人形。为啥信息输入也要像人?为啥必须第一视角?现在大部分都是遥操,那么通过环境感知,上帝视角机器人自己遥操自己可以么?
曼祺_MatchQ
:
第一视角更接近机器人的结构,好迁移到本体上。 机器人摇操机器人对机器人软硬件能力要求很高。这有点像,如果你有一个人很成熟的人形机器人,它也可以开车来实现“自动驾驶”,但自动驾驶不是这么到来的。
whoissp:我是觉得具身在信息输入完全可以脱离人的方式,激光,毫米波,360都可以,当初自动驾驶还提过车路协同,其实小范围具身更可以做到和环境有更多超过人体局限的信息交互。
银蓝228
银蓝228
3天前
59:40 圈外人半夜做家务时打开了这一期,充分理解了给娃听英语磨耳朵时有一个叫“无效输入”的概念……🤣(意思是听了但是因为不理解所以等于没听)
瑞言Ry
瑞言Ry
2天前
喜马拉雅请同步更新 感谢
感觉这哥们儿不是很清楚。。。