Vol.216 产业观察41|具身“不够卷”、世界模型和机器人大脑:再访逐际动力张巍高能量

Vol.216 产业观察41|具身“不够卷”、世界模型和机器人大脑:再访逐际动力张巍

78分钟 ·
播放数12844
·
评论数25

【本期课题】

人形机器人

【本期嘉宾】

张巍,「逐际动力」创始人

【栏目介绍】

在《产业观察》这档专栏里,我们会为你厘清不同产业的历史沿革,希望能够从中找到一些底层的规律。虽然当下变化迭起,但是所有新风口都有迹可循,不同产业的发展其实也有很多相似之处。

【免责声明】

本节目的所有内容并非旨在提供任何形式的建议,包括但不限于投资、税收、会计或者法律上的建议。

【内容索引】

00:19 过去两年具身智能机器人行业的热度"没有最热,只有更热",作为在行业热起来前就入局的创业者,你这两年的体感是什么?

02:09 具身智能不应类比单一垂直互联网赛道(只有做到第一才能活下来),而应类比整个互联网生态——可以美团、阿里、字节、腾讯等多家巨头并存。

06:20 逐际动力的人形机器人场景定位,为什么是"Serve People, Not Process(服务于人,而不是生产过程)"?

12:49 先给"世界模型"这四个字祛个魅——"世界"只是"模型"的修饰词。从小到大我们接触的所有模型,本质上都是某种世界模型,区别只在于世界大小、开放程度和可观测物理变量不同。

17:56 物理公式融入世界模型能带来新模态的信息增量,但这些表征依然很难与世界模型的数据有效对齐。

21:18 具身模型的生产与制造业无异:数据是原材料,训练平台是产线,产线上训练出来的就是模型。

22:49 为什么具身智能不能走大模型"先通用再落地"的路径?

26:12 相比一个无穷大的通用机器人模型,最终能商业落地的方案应该是一个个独立的模型,也就是"技能Skill"——开车是技能,剥鸡蛋也是技能,会开车不代表会剥鸡蛋,各自都需要单独的训练数据。

29:36 世界模型背后,从"看见"到"理解"的语义鸿沟是什么?

33:17 "机器人大脑"的重新定义:为什么大脑是操作系统,而不是模型?

36:05 逐际动力用System 2、1、0三层架构建立人形物理AI系统,分别对应思考决策、技能和全身运控基础模型

38:02 语言是思考的本质吗?当前AI范式下,大语言模型的定位是什么?

43:11 逐际动力的产品矩阵与开源策略是什么?

51:23 无人机产业经历了"专业拍摄→表演(第一个真正批量应用)→规模化降成本→其他产业带动传感器成本下降→操作系统门槛降低→真正To C(面向普通消费者)"的漫长路径,具身智能可能也会循着类似的逻辑发展。

54:52 为什么全身运动控制的基础模型对人形机器人很重要?

57:15 随着一批具身智能机器人公司陆续上市,是否意味着这一轮具身智能热潮接近顶点?

58:20 如果行业热度骤降五成以上,具身智能公司该怎么办?

59:23 从教授到创业者,你经历了哪些角色蜕变,有什么经验和教训?

01:13:41 "人总会在自己不懂的领域里被魅惑"——老师容易被商业魅惑,成熟企业家容易被技术魅惑。

01:16:16 四年创业最深刻的感受:输不起,就赢不了。

【相关文章】

文字版内容,可后续在峰瑞资本公众号查看。

【本期相关】

马尔可夫链(Markov Chain, MC)是概率论和数理统计中具有马尔可夫性值(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。

拉普拉斯妖(英文:Laplace's demon)是法国数学家皮埃尔-西蒙·拉普拉斯(1749—1827年)于1814年提出的科学假设。该假想生物知晓宇宙中每个原子的位置和动量,可通过牛顿定律推演宇宙所有事件的过去与未来,用以阐释决定论思想。

逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座-36氪

不想只停留在跳舞表演,逐际动力用Agent的思路打造真正能想能做的通用机器人

Vol.102 产业观察15|人形机器人是具身智能的最佳选择吗:与张巍聊具身智能之双足机器人

【往期链接】

Vol.213 产业观察40|CPU变热背后的思考与新的AI智能终端

Vol.179 产业观察32|具身智能机器人产业的必经之路:泡沫、挑战与长期价值

Vol.106 产业观察16|大模型的想象与泡沫,机器人的“不可能三角”与未来:与连文昭聊具身智能之上肢

Vol.196 产业观察37|如何打通机器人与现实世界交互的“最后一厘米”

Vol.187 产业观察35|张赛口述13年机器人创业史:“四大家族”兴衰、死磕到底、具身智能与出海

【制作团队】

主理人:李翔、李丰

制作及统筹:张英海(13514156656)、峰小瑞(pr@freesvc.com)

如果你喜欢我们的节目,欢迎你分享到更多的地方,也欢迎你在我们的评论区留言交流。

展开Show Notes
09:46 张小珺访谈谢塞宁那期听到4:17:24 的时候我对世界模型本质有个自己的理解。现在我想到为什么机器人要做人形的两个理由:一是人形是世界环境和物种协同演化的结果,或许人形是比较适合统治世界的形态,当然可以根据需求场景造十二生肖型,或者根据需求造新物种,有点孟尝君门客三千适合各种需求场景的意思;二是整个人类世界的主要场景即城市是人形的世界模型按照自己的能力适配打造的,人形天然适应城市环境。

world model开始是先验知识,出生前由进化遗传机制获得,婴儿大脑中有world model,鼻子眼睛肌肉骨骼头发指甲都是world model的一部分因为它们包含先验知识,利于物种生存。

后天world model是后训练获得,从具身输入,部分错误由具身学习纠正,部分由父母爷爷奶奶等harness并在错误中纠正成长;上学了开始学习人类积累的先验知识,通过书把前人神经网络蒸馏结果蒸馏到自己神经网络中,然后自动驾驶并微调,通过交通法规和犯错,经济惩罚,神经递质等harness。

没有一个完美的世界模型。人类就是那个一直在成长,被进化论筛选现在还存在,未来不一定存在的世界模型😇

某种意义上可能目前世界上还存在的所有物种都是具备某种广义“智慧”的世界模型,因为如果一个物种不能对现实世界(即这个物种的利基环境)预判、感知、理解、决策、适应,包括因果预测和行为规划出适合自身生存的行为模式,这个物种可能不能生存到今天。

另外,不是所有物种都和人关系密切,马牛羊鸡犬豕都有特殊用途。现在看和人关系最密切的工具也是人形,无论是奴隶、仆人、士、工、商以及古代所谓下九流都是人形🐶
主持人为什么喜欢说复合句?总是或者/或者/或者,信息密度很低,也严重影响收听体验,相反嘉宾总是言简意赅
时间里的飞人_ZfHs:他最爱说的是“当然”,通篇八百个当然。
六耳猫:主持人以前教GRE的
4条回复
momomai
momomai
4天前
机器人大脑不是模型,而是操作系统,模型是一个个单独的技能,以前没这么想过,还挺有意思的
主持人能不能少说点长句,听着费劲。
虞谦:丰叔说话的特点就是这样 像是英语的长难句
huan9huan
huan9huan
3天前
好过瘾
非常认同这句输不起就赢不了,近于道
Fendi
Fendi
4天前
追更两年多啦,续集终于来了
感觉现在AI或者Agent都还没有触及基因层面概念,目前还是记忆和skills层面,可能基因领域才是最底层能力积累
momo_wE7G
momo_wE7G
2天前
天呐,主持人能不能专业点,话怎么那么多啊,都是来听嘉宾分享的,不是让你来展示自己有多懂的,搁那什么当然当然的,烦不烦啊
波波2504:丰叔是投资人,习惯吧,我觉得挺好,考虑比较严谨
HJ_ypir
HJ_ypir
1 天前
我是来听专家讲的。不是听主持人喋喋不休。多学习学习晚点聊曼琪的提问艺术。
这期挺有意思。
10:49 这个世界是人类创造的,肯定最适合人类,所以人形最合适。
嘉宾内心:鸡同鸭讲真的好累啊啊啊…
KBM
KBM
6小时前
我还是不太能理解,对于巨深智能的话,他的大脑就是应该是大模型啊,大模型是可以更换的或者升级的,比方说你的小龙虾或者说是minus你的底层,你调用的是什么模型?你调用的是Def sick,你用的是ChatGPT的5.5 5.3对吧?3230这些不同的模型,他们有不同的这个算法的机制在里面,所以算法一定是大脑,然后其于大脑上面的执行层面才是co和或者说是minus minus发出指令以后调动你的机械装,不管你是音频视频还是机械的输出啊,我是这样理解的,所以能否再清主持人总结和梳理一下到底为什么嘉宾会认为大模型或者说是算法这个最根本的不是大脑小龙虾或者Ms就是大佬,谢谢。
波波2504
波波2504
17小时前
24:03 23:27 场景垂域模型
26:28 插件
听看结合好烧脑
寒鱼
寒鱼
3天前
多模型混合,LLM作为中枢,把这套操作系统比作大脑,是不是也有点简化了?
未来搞个机器狗养老就行