106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象张小珺Jùn|商业访谈录

106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象

159分钟 ·
播放数29613
·
评论数89

今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。

王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。

而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。

我们探讨了一些具身智能产业界关键问题:

1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?

2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?

3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。

去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。

2025,我们和AI共同进步!

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)

03:00 开始的自问自答

05:58 语言不是智能的本质,而是“一次跃变”

“具身智能”和“机器人”是不同学术流派

“具身智能”起源于“计算机视觉”的研究流派

视觉有智能吗?纯视觉智能的可解释性差,是端到端的

语言不是智能的本质,不能说没有语言就没有智能

智能的本质是什么?“一种视情况对环境做出反应的能力”

语言是人类能产生这么高智能的“一次跃变”

视觉的本质是一种非常强的sensor(传感器)

25:08 具身智能的学术边缘史

具身智能最早兴起的task(任务)是,导航

加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事

标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)

我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道

41:15 我的学术之路

2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)

在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向

Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你

第一篇论文憋了很久,很绝望

完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术

我的第二个项目:位姿估计和合成数据相关

2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧

回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)

01:25:08 具身智能的软件和硬件是螺旋上升的问题

ChatGPT火了以后,很多人开始找我创业,我说创不了

所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当

如果采取不成熟的激进的硬件方案,对智能会是一种拖累

在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能

VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)

01:44:34 我们要避免陷入以下泥潭

这一代具身智能公司相比此前机器人公司,差异在哪?

在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:

1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降

我们要做一个应用场景内的泛化(现在选择的是货架场景)

在我看来,机器人领域的头部效应很重

01:55:17 具身智能是,“生产力即产品”

雇人摇操采真实数据的成本到底有多高?一笔经济账

真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁

行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)

关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区

有出货量后的数据回流和数据飞轮

如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”

02:13:51 资本轰炸后的人为乱象

谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国

对Figure的估值400亿美元的两种逻辑

有的人胆子很大,不告诉别人我是摇操,但实际摇操

呼吁:真实展示!不要摇操!

5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!

不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗

通用机器人的到来不要想得那么快

02:25:25 一个插曲

去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?

黄仁勋能吃辣,吃了很多水煮肉片

02:28:26 最后的快问快答

【机器人专场】

逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

【更多信息】

联络我们:微博@张小珺-Benita

更多信息欢迎关注公众号:张小珺

展开Show Notes
听他讲话觉得有些累,感觉他很用力哈哈
momo_sO3f:因为他还年轻,不端着,很坦诚。他在认真的表达,而不是把认真用到思考我要怎么表达。大家现在想听到点实话,已经很难的了,为了能更多听到比较无所顾虑到的表达,请大家多鼓励哈
HD134815f:和你的观感正好完全相反,我很喜欢这种回答,他在非常认真的思考每一个问题,而且在尽可能用通俗又严谨准确的方式表达,让人真的能看到他思考的轨迹,跟着他的脚步真的能听懂这个领域
8条回复
荣雨墨
荣雨墨
2025.6.27
本期嘉宾有点喜欢吹🐮
Joes东
Joes东
2025.6.23
1. “视觉-语言-动作”三角不对称
• 数据稀缺性决定 VLM 远弱于 LLM:互联网视觉/动作数据的覆盖量远小于文本,且真实动作数据直到近两年才系统化收集。
• 行业启示:纯堆模型参数不够,必须同步铺“具身数据基建”与数据合成管线。 

2. 合成数据与 Sim-to-Real
• 合成数据不仅降低成本,也是让模型看到长尾罕见场景的唯一可行手段。
• 关键难题:物理一致性(Dynamics Gap)与传感器噪声匹配;王鹤强调“把合成链本身做成自研能力”,避免依赖商业引擎黑盒。

3. 商业模式:从“智能即产品”到“生产力即产品”
• 对比大模型 SaaS:具身智能产品必须落到 能替代人力、可核算 ROI 的具体生产力指标。
• 货架拣选-补货被银河通用选为首场景:既有足够 SKU 复杂度,又在物流环节中存在巨量潜在需求。

4. 资本泡沫与行业自律
• 2023-2025 年,具身机器人公司估值飙升(Figure 高达 400 亿美元),但多数样机仍严重依赖远程操控。
• 风险:一旦不能在 5 年内实现“万台级”落地,叙事将被证伪,资本抽离会反噬行业。
• 建议:建立第三方 Benchmark + 公开 Demo 规范,减少对外“演示即能力”的信息不对称。  

5. 王鹤与银河通用的定位
• 近期获 11 亿元人民币融资,估值跨过 10 亿美元独角兽门槛,印证其技术-资本双重背书。  
• 核心打法:自研合成数据链 + 专用硬件,先夺取单一场景规模,再“硬件外包 / 智能内核”模式横向扩展。



行业与听众启示
1. 数据飞轮先于硬件飞轮:具身智能的真实壁垒在于数据闭环,而不是第一台 demo 机器人。
2. 衡量指标从“参数”转向“单位成本产出”:下一代 AI-native 企业的竞争优势是生产效率,不是模型 FLOPs。
3. 警惕故事资本化:在估值-PR “加速主义”浪潮下,创业者与投资人需共同建立可验证的技术-商业里程碑体系。
4. 跨学科人才红利:Vision / Robotics / Simulation / Manufacturing 复合背景将成为具身智能核心人才画像。



后续关注
• 合成数据平台化:谁会成为“Stable Diffusion for Embodied AI”?
• **Robotics-as-a-Service(RaaS)**定价模型与渠道生态。
• 中美供应链差异对硬件 BOM 与迭代速度的影响。
• 法规与安全:具身智能在公共场所的伦理与责任边界。
小饼饼
小饼饼
2025.6.24
1:23:06 亚裔女性呢?毫不关心哈哈哈哈
小润闲谈:笑死了
NeonVectum:但是事实就是亚裔女性比亚裔男性在职场上混得好😭
6条回复
UltronFG
UltronFG
2025.6.29
睡前听播客忍不住来评论一下,embodied AI是个很不错的rebranding不假,这个词也确实是最近几年才流行起来的,但说具身这个领域是来源于cv community和大概19/20才开始就有点说不过去了。robotics已经存在几十年,把深度学习用在robot上(aka robot learning)也是2015年以前就开始的(Sergey的deep visuomotor policy是2015年的paper),现在换个名字就成了全新兴起的小众领域了吗………
UltronFG:32:34 我也是没想到听了半小时都在谈论embodied ai这个词是谁提出的,为什么其他人没提出这个词……虽然你做了vision-based policy,但你没有提出embodied ai这个名字……之前听技术播客像xiangyu那期收音很差也冲着内容水平很高听完了,但这个开头的内容实在劝退,感觉在浪费时间听人争credit
Gray_C:我听的大概是:基于VLM的embodied AI能够成为机器人一个通用范式,更多的传感器赋予机器更全面的感知功能,基础模型能够融合处理不同的模态,最后输出到肢体完成和现实的交互;避免在传统机器人中,对每个任务都需要设计单独的算法和功能场景的冗余。 我自己觉得这个思路确实是机器人前进的一大步,但感觉自我吹嘘的段落有点太多了… 不够ground- breaking,也不是很practical… 听得好累
AMAZING王总是近几期嘉宾里面学术时间长但商味儿重的(Doge
Hahuhahu:王曹操啊
山里灵活的狗都有人注册:友善狗头(doge
露露大大
露露大大
2025.7.01
吹牛逼太严重
王老师太能讲了,难怪能融到那么多钱
真过瘾!王总口才太好了,像听了仨小时相声
Johnny_AcIu:哈哈好评价🤪
配得上10年后的人类愿望清单的一定是随身携带的机器人,数量比手机,价值比汽车,产业价值是现在的房地产位置。
小木林
小木林
2025.6.24
agent 是老演员了,不是 LLM 之后才有的这种架构思想。
语言当然不代表智能,只是描述世界的密码本。信息密度,维度都很低。
已经看出来主持人是被泛泛而谈的数据训练并太快收敛了,这是做访谈的弊病,一切只是“听说”。
小润闲谈
小润闲谈
2025.7.08
1:24:17 他说话真的跟那个“北京爷们,要脸!”一模一样!
Adrian_XIIo
Adrian_XIIo
2025.6.24
要是王兴兴跟王鹤来上一场,那会多有趣呢
1:37:33 非必要不增加不靠谱和不需要的零部件,别给自己找麻烦
HD464163w
HD464163w
2025.7.02
我真的几分钟 我就骂了他全家了。
吖len
吖len
2025.6.25
1:41:41 是的 文字是人创造的 是容易穷尽的 视界是大自然创造的
Whitney
Whitney
2025.6.24
鹤老师表达能力是真的强
2:22:30 小珺此处发出了对宏大叙事的冷笑声
无尽被窝地狱:创业者嘛,有这种中二感很正常的,投资者也喜欢听
Reallyfancy
Reallyfancy
2025.6.24
05:58 很用力 都是我 首个 第一个
moonwalker_c
moonwalker_c
2025.6.24
太牛逼了…33岁,十亿美金估值😅
人比人,真比不了,彻底躺平