149: 具身模型哪家强?与范浩强、高阳聊具身模型的测评、RoboChallenge,26 年具身展望晚点聊 LateTalk

149: 具身模型哪家强?与范浩强、高阳聊具身模型的测评、RoboChallenge,26 年具身展望

82分钟 ·
播放数4836
·
评论数14

「用大规模测评驱散 PR 式 demo 的迷雾。」

虚拟空间的大模型有大量 benchmark,测试非常直观;而在如火如荼的具身领域,怎么衡量模型能力,本身还是需要探索的课题。

这期,我们邀请了两位具身智能从业者,原力灵机联创范浩强和千寻智能联创与首席科学家高阳,一起聊具身模型的测评。

范浩强从高三就开始在旷视工作,有丰富的计算机视觉开发和落地经验;高阳回国前在伯克利 BAIR 攻读博士,和 PI 的联创 Sergey Levine 有诸多学术合作。

去年 10 月,原力灵机和 Hugging Face 联合发起了全球首个具身智能的大规模真机评测平台 RoboChallenge。在前不久释放的最新测评结果中,千寻的 Spirit v1.5 模型登顶榜单,表现超过 π*0.5。


RoboChallenge 测评平台网站:robochallenge.ai


图注:RoboChallenge 测评现场

在 RoboChallenge 的测评中,机器人不再只活在精挑细选的 Demo 视频里,而是要在多样化的“Table 30”任务中接受真实世界的“毒打”——任务包括碎纸、插花,扫二维码。

这期我们聊了具身模型测评的难点,RoboChallenge、RoboArena 等目前的大规模测评尝试是怎样的思路?行业里心照不宣的 demo 工程,以及 2026 年,我们可能从哪些路径逼近具身智能的 GPT-3 时刻。

范浩强和高阳说,组织和参与测评的过程,组织和参与测评的过程,本身增强了他们对具身的信心,,从 π*0 在 Table 30 任务上只有 20% 的成功率到 π*0.5 的翻倍和一些国产模型的超越,具身仍很早期,但进步速度也很惊人。

本期嘉宾:
范浩强 原力灵机联合创始人
高阳 千寻智能联合创始人、清华大学叉院助理教授

本期主播:
程曼祺 晚点 LatePost 科技报道负责人

时间线跳转:
-发起 RoboChallenge,行业呼唤大规模测评
03:24 范浩强和高阳的从业经验
06:53 RoboChallenge 的发起,见证成功率从 π0 的 20% 到 π0.5 的超 40%
12:40 以往方法的问题:环境不一致、测评不持续、仿真有局限
21:47 对比 RoboArena 和 RoboChallenge:前者是分布式 Zero-shot 测评;后者是集中 few-shot 测评
28:33 上线 2 个多月的观察:超预期的 1 万条测试提交,国产模型超越
33:04 Table 30 任务集的设计,插花、扫二维码等任务的“刁钻”考点
40:24 提交者自己做 fine-tune(微调),开源权重证明诚信;接下来会更新灵巧手的测评

-2026 年具身展望
45:07 学习原理已经收敛,Scaling Data 是 2026 年的行业主题
48:53 4 种数据类型,各团队的不同数据 bet
57:20 落地应用,具身的“Coding”任务是什么?“破圈”时刻何时出现?
01:07:00 大众与从业者之间的认知落差,行业心照不宣的“demo”工程
01:12:50 具身测评可以被 Hack 吗?如何反制 hack?
01:14:52 26 年想验证的问题:具身中国追平美国的 DeepSeek 时刻是否到?基模能否上一个台阶?

01:17:47 连点成线:总结观察具身进展的 3 个维度 & 具身创业团队的不同来源

附录:本期中出现的一些人物、技术名词、项目、公司
-Sergey Levine:Sergey Levine,加州大学伯克利分校教授,机器人强化学习与通用学习系统的重要推动者。曾参与 Google / Google Brain 的机器人与强化学习研究,并共同创立具身智能公司 Physical Intelligence(PI)。
-π 系列模型:PI 提出的通用机器人模型系列,最新版本 π*0.6。
-CIFAR:一个经典计算机视觉数据集,相比之后出现的 ImageNet,它规模更小、分辨率更低,常用于快速实验和教学。
-Sunday Robotics:由 Tony Zhao 与 Cheng Chi 在 2024 年联合创立的家庭场景通用机器人公司。
-Generalist AI:2024 年成立的美国通用机器人 / 具身智能的创业公司。

本期剪辑:Nick

小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
置顶
LLM 已经有了大量公开benchmark,而具身模型的大规模测评方法和平台仍然稀缺,Eval(评估)本身是各类AI进化的一个重要模块。

本期,和原力灵机范浩强、千寻高阳一起聊 10 月上线的测评平台 RoboChallenge 和具身模型的测评现状;同时聊了 26 年具身行业展望,以及“视频demo”横飞之时,怎么穿越迷雾,看清具身模型的真实水平。(适合在扎堆的具身进展中目炫的你取用😆
公开公平的评测还是很有必要的
1:02:46 为什么年轻人总是倾向于把眼睛盯在自己的出租屋,呃……大耗子同理。机器人替代人的最迫切需求都是在工业领域。各种恶劣环境,有毒有害环境,六轴干不了的复杂工作,这都是刚需啊。 就跟当年自动驾驶刚起来的时候,矿山的矿卡都是刚需啊。那时候都是说矿山网络不行搞不了,现在网络解决了,华为的系统不就大规模铺开了嘛。
LincolnW
LincolnW
5天前
27:03 哈哈哈,现在机器人不 finetune 完成任务基本为 0
cloudy1
cloudy1
5天前
个人投资具身行业还需要再等等啊
太多人直接宣称 scaling law 一定会成功,真不觉得 scaling law 成功的核心在于需要成功的数量级是已知的么?所有人都在爬一座看不见山顶的山峰,然后就说只要往上爬就一定能到山顶,听上去是没错的,可是你怎么知道你有限的体力怎么达到未知的山峰海拔呢?
核心现状就是机器人能做的水平还太初级了,所以今天的很多 benchmark 才设计成这样。😅
关于扫二维码这个事,系统上应该给指示是否扫到了码,就跟人也需要看一个屏幕是否有提示扫到码了没有。不知道这个输入是否在实验中提供了?否则光靠桌面的视频的确无法区分,人也一样。不知道曼琪能不能帮问一下
一口流利的东北英文 还非常爱说 伯克利那个反而一直保持稳定中文输出
确实很多机器人的视频都是一些假象
losolee
losolee
5天前
能不能训练一下自己,说话不要一直笑。晚点的播客很少有听不下去的,这个嘉宾让我关掉了这期节目。
具身智能,现在真的可以吗,我看说人形机器人离应用还远着呢
KMnO4aq
KMnO4aq
4天前
这个高阳有点装,知道的人知道他是搞cv的,不知道还以为是搞金融的