E206|临近机器人GPT-3时刻,具身智能开源模型的加速演进硅谷101

E206|临近机器人GPT-3时刻,具身智能开源模型的加速演进

71分钟 ·
播放数32179
·
评论数54

今年机器人模型领域最重要的突破,就是模型的通用性大幅提升,开始了泛化能力的探索,与此同时,这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战,这期节目我们就来聊聊,业内将如何面对这些挑战?中国和美国的机器人发展路径又有何区别?
本期节目我们邀请了中国具身智能公司自变量机器人的CTO王昊,在这期节目上线时,他们刚开源了大规模真实数据训练的端到端具身基础模型WALL-OSS;以及来自美国具身智能公司Physical Intelligence的研究员柯丽一鸣(Kay Ke),她是π₀、π₀.₅论文作者。
在节目中,嘉宾们表示目前具身智能模型已达到了GPT-2的水平,在最近2到3年将优先在半结构化场景应用,那么我们距离全场景的通用机器人又还有多远?机器人公司又该如何平衡商业化与研发的节奏?

【主播】
泓君,硅谷101创始人,播客主理人
【嘉宾】
王昊,自变量机器人CTO
柯丽一鸣(Kay Ke),Physical Intelligence研究员,π₀、π₀.₅论文作者

【硅谷101科技峰会】
《硅谷101》的年度科技大会又回来了,这是我们将有趣的技术干货与故事带到线下的第二年,用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷101的目标。硅谷10月5日,期待与各位见面,从这里驶向未来!
欢迎点击前往购票地址,输入粉丝专属折扣码“VALLEY101FANS”,享85折优惠。

【蚂蚁外滩大会】
硅谷101播客主理人泓君将主持9月11日~12日在上海举行的蚂蚁外滩大会,聊聊AI时代的全球趋势和创新最前沿,感兴趣的朋友欢迎点击领取硅谷101粉丝专属参会凭证。

【你将听到】
行业突破与泛化能力
05:36 2025年关键进展:模型通用性提升,开始泛化能力探索
07:38 何为模型泛化能力:从熟悉环境到陌生环境的能力一致性
11:44 泛化核心难点:长尾问题、数据采集与缺乏标准评测体系
16:04 如何评判具身智能模型能力:对比任务学习数据量与现实应用表现

数据挑战与硬件瓶颈
17:17 其他两大难点:数据质量与数量平衡、硬件维护缺乏统一平台
20:03 为何需要至少100万小时的数据,才能构成优秀的大模型?
23:06 人类VS机器人学习机制对比:人类的进化已包含了“预训练”
27:14 合成数据在机器人领域的应用:降低数据收集成本,但难以模拟现实物理交互

模型架构与技术路径
31:35 具身智能开源模型WALL-OSS发布:上万小时真实数据,补足当前开源模型的欠缺能力
35:36 WALL-OSS模型开源动机与优势:降低研究门槛,加速生态创新
38:03 架构之争:端到端统一训练VS分层系统设计,模型技术路径尚未统一
40:58 从VLA(视觉语言模型)出世后,具身智能模型路线开始走向趋同化
44:10 具身模型已达到GPT-2的水平,将在1~2年时间达到GPT-3水平
45:31 中美机器人技术路径区别:美国自上而下、先做大模型,中国从现实需求出发、双轨并行
52:31 抓到耗子的都是好猫:算法与操控的难度平衡
54:12 模型高频控制的意义:对未来情况做决策,但更高频率无意义
58:13 视觉难以对未来做精确的预测和建模,但能弥补触觉缺失与力的反馈
01:00:20 传感器比想象更成熟,但机器人还是依赖视觉作为主要训练参数

商业化与落地前景
01:01:31 家用机器人预测:2~3年内进入半结构化场景,5~10年全场景使用
01:05:29 如何平衡商业化与研发:尽可能服务于开放式场景,提高公司组织能力
01:08:43 现实部署的机器人量越大、场景越多样,数据反馈和模型迭代效果将越好

【节目中提到的相关公司和术语】

  • Physical Intelligence (PI):美国具身智能公司,推出了π₀、π₀.₅模型
  • 自变量机器人:中国具身智能公司,开源了端到端具身基础模型WALL-OSS
  • RT-2:Robotics Transformer 2,谷歌DeepMind推出的新一代AI学习模型
  • Genie3:谷歌世界模型的第3代,是DeepMind首个支持“实时交互”的世界模型
  • VLA:Vision-Language-Action,视觉-语言-动作模型架构
  • Covariant Robotics:一家专注于机器人大脑软件开发的硅谷公司
  • 长程任务:Long-Horizon Task,包含一系列连续步骤、需要机器人进行多步推理、规划并执行,最终才能完成的复杂任务

【监制】
泓君
【后期】
AMEI
【运营】
王梓沁、孙泽平
【BGM】
Ever Forward - Francis Wells
Mixed Emotions - Arthur Benson
Supine - Peter Sandberg

【在这里找到我们】
公众号:硅谷101
收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓FM|荔枝FM|网易云音乐|QQ音乐
其他平台:YouTube|Bilibili 搜索「硅谷101播客」
联系我们:podcast@sv101.net

Special Guests: 柯丽一鸣 and 王昊.

展开Show Notes
感觉柯丽一鸣不想得罪王昊 分歧点都不敢对呛 没有火药味 一两年的 gpt3 时刻 5 年遍地开花 我看柯丽一鸣的表情是🙂😐
ceci_hVih:每次问她都没有明确回😂
泓君Jane
:
我很喜欢Kay的分享,满满的细节又从全局和历史角度思考,两种不同的风格一起搭一下多好!
5条回复
Mr_Charles
Mr_Charles
2025.9.12
昨天在外滩大会C9听了Jane主持的panel,太优雅了
泓君Jane
:
谢谢捧场!
维德程心
维德程心
2025.9.10
25:14 男嘉宾回答这个问题比女嘉宾系统多了,从问题出发一步步
MaiLC
MaiLC
2025.9.10
20:24 这个观点很有趣。单看一个人一生有大约一百万小时数据,但是我想到,现在的一个人可能是整个人类两百多万年进化史数据的浓缩点。所以机器人要真正实现人的智能,是不是也需要这样庞大的时间迭代数据🤔
HD504270k:我也觉得
好奇上个版本为啥删了🥸
泓君Jane
:
我们节目日常是固定时间——北京时间早上八点硅谷时间下午五点发布,昨天运营同学上传的时候定时写错了😂
EE_12345:哈哈哈哈我也 昨天刚想点开发现无了 还去小红书搜了一圈
4条回复
Baca
Baca
2025.9.11
人在湾区 先求票…好奇如果用云端大模型做机器人推理 这个数据传输的latency得多大 机器人能连贯完成动作吗?
柳下系船犹未稳:您好,我是硅谷101的官方运营,感谢留言,请将您的账号主页截图,邮件发送到ziqing@sv101.net,我们将为您送出门票
HD504270k
HD504270k
2025.9.14
15:32 这里Kay补充的真好 全面了很多
HD504270k
HD504270k
2025.9.14
10:49 喜欢Kay的解释
心心__
心心__
2025.9.14
求送票票……我是之前投稿被选中的心心🤍我是做人工智能产品相关的设计师,想参加线下交流和会议。会有国内场吗 我主要base在上海/欧洲
泓君Jane
:
wow,是心心,感谢之前投稿。我们这期送票已经结束了,还有些名额给了Youtube的听友。以及没有国内场😂😂😂
心心__:嗯嗯,没关系!期待下次活动可以参加线下现场。谢谢泓君,会持续关注和支持硅谷101的🤍🦋
dc_EGhN
dc_EGhN
2025.9.10
如果真的具备基本的通用能力,机器人的使用场景会非常广泛。 求个票,人在湾区🙋
柳下系船犹未稳:您好,我是硅谷101的官方运营,感谢留言,请将您的账号主页截图,邮件发送到ziqing@sv101.net,我们将为您送出门票
但还是想问有些突发状况咋办?比如我家猫突然把玩具扔在地上后能判断清理/绕开/推开吗?另外希望机器人未来可以通过观察人类行为学会新技能~比如看我叠衣服几次,就自己掌握叠短袖/西服/裤子/内衣的方法,那就真的解放生产力了lol
维德程心
维德程心
2025.9.10
53:48 一样的观点,做通用模型不需要复杂硬件,通用硬件(那怕是一个小方块)只有能和通用模型match,就能有无穷的力量
leecshom
leecshom
2025.9.10
哦哦原来女主播已经有宝宝了...
金雪儿
金雪儿
2025.10.17
一些take away:
1.机器人训练的目标是建立泛化(迁移)能力,从而解决复杂长程任务
2.当前难点包括:真实世界数据少、高质量数据成本高;缺乏统一评测标准;缺乏成熟的硬件平台
3.大模型的目的:建立良好的预训练基础(把经过进化形成的先验的认知注入)、使其具备并行多任务学习迁移能力,参考人类幼崽的教育过程
4.技术路径:(1)推理、控制,两个层次,重要的仍是数据及数据驱动的算法;(2)大模型、小模型,基于解决特定垂类问题的需求,来提升基础模型的迭代速度;(3)高频控制,目前50赫兹与模型的数据处理能力匹配;(4)感官差异,目前主要依赖视觉弥补其他缺失
5.应用场景:呼声高的家务机器人需要5-10年,本身家务场景已经很复杂
蒲秋如
蒲秋如
2025.9.25
这段解释人类进化过程中预训练的逻辑,很有启发
Vivililivili
Vivililivili
2025.11.18
1:00:33 收集三维数据 的方法:传感器 ,重视运动数据,可以通过图像视觉来判断是否抓取成功,用视觉弥补触觉不足
AaronZ_RprY
AaronZ_RprY
2025.11.02
嘉宾遮遮掩掩的……
晓飞_jIZQ
晓飞_jIZQ
2025.9.29
期待,求门票呀
小和平鸽
小和平鸽
2025.9.27
20:25 最终答案:

• 纯按 24 小时一天:约 41,667 天(约 114 年)

• 按每天 8 小时“有效工作时间”来算,相当于 125,000 个工作日,约等于 479.5 个自然年(假设不放假全年工作,则约 342.5 年,但这里已换算成包含周末的实际日历时间)。

好可怕。 这应该要至少并行100以上的机器人吧。