具身智能,奇点将至!最新观点

具身智能,奇点将至!

19分钟 ·
播放数1
·
评论数0

春晚的机器人表演看完,它们确实比去年更“像样”了——动作更整齐,节奏更稳定,甚至能在舞台上把复杂的编排完成得干净利落。

很多人大概率会冒出一个很现实的问题:舞台上的机器人能跳舞,和家里那个能把厨房、洗衣、收纳、做饭一条龙搞定的“家务机器人”,到底差了多远?

也许只要五年!机器人研究者 Sergey Levine给出了他的预判。他是加州大学伯克利分校的教授,还是Physical Intelligence 联合创始人。

为什么他敢把时间压得这么短?为什么机器人不会像自动驾驶一样,又是一个让我们再听二十年的故事?

对于这个问题,Levine提供了逻辑清晰的分析框架:三大技术关键和数据飞轮何其启动。

一、“打理家务”其实并不容易

先从现实说起,机器人现在到底是水平?我们习以为常的“叠衣服、整理厨房台面、折披萨盒”是很简单的事情,但对机器人来说,这些恰恰是最难的入门题——因为它们要和“柔软、形态不定”的物体交互。

衣服不是刚体,披萨盒的折痕需要对齐,厨房台面的杂物会不断变化位置;人们随手能处理的细节,对机器人而言意味着感知、抓取、力度、协调的完整链条。

但这些“单点技能”即便做得再好,也仍然只是起点。Levine 描绘的终极形态,是你对机器人下达一个非常高级的指令:“帮我打理家务。”

这听起来像我们对智能音箱说“帮我放一首歌”,但“打理家务”这个范围太大了:我们可以继续补充细则,比如“晚上六点做晚饭,每周六洗一次衣服”,然后机器人在接下来的几个月里持续、自主地执行,自己规划、自己解决问题;洗衣液快用完了,它会提醒你,甚至主动下单补货。

这已经不是“工具”,而是更像一个真正的“管家”。而这也把问题推到了关键处:它和我们今天能设置的定时任务,到底有什么本质区别?

区别在于:定时任务是把未来写死;而“管家机器人”必须面对现实的不确定性。比如周六突然停水怎么办?厨房临时多了一道菜怎么办?孩子把玩具撒满客厅怎么办?

要实现家庭管家的目标,机器人还需要:常识推理、工作中的持续学习,以及最重要的安全保障。这三项能力过去默认只有人类才拥有。

二、“数据飞轮”何时启动

说到这里,Levine 的一个关键词就出现了:数据飞轮。

在商业世界,飞轮效应很常见:系统一旦启动,就能自我增强、越转越快。把它放到机器人身上,意思就是:当机器人真正被部署到真实世界里,哪怕一开始能力有限,它也会在与环境的一次次互动中积累数据和经验,这些经验再反过来训练模型,让它变得更聪明;更聪明之后又能处理更复杂的任务,收集到更多、更高质量的数据,于是形成正向循环。

那么,这个飞轮什么时候才能开始转?

Levine 的回答是“很快”,并且给了一个更具体的时间框架:未来 1–2 年,第一批“足够有用”的机器人就可能走出实验室,进入一些商业或家庭场景,开始启动飞轮;而“能完全自主打理家务”的中级管家型机器人,他给出的中位数预测是 5 年。

我们见过太多关于AI的乐观预测,最后都被现实打脸。那这个“五年”到底是基于最理想的情况,还是他真的看到了某种不可逆转的进展?

Levine 的回答反而很克制:这不是一个瞬间爆发的故事,而是能力范围持续扩张的过程。

他用了一件我们都亲历过的事情来类比:编程助手的演化。

最早的编程助手只能补全函数名,后来能补全整行代码,再后来能根据注释生成完整函数;到今天,顶尖工具甚至能帮你完成大部分编码工作,乃至提出架构建议。它们始终是人类专家的增强工具,但增强的力度在持续变大。

机器人也会走类似的路径:一开始也许只是一个“能稳定冲好一杯咖啡”的咖啡师助手,随着飞轮转动,它的能力会扩展到管理咖啡店后厨,包括补货、清洁、维护设备等等。渐进,但会不断加速。

三、为什么机器人不用“再等 20 年”

聊到机器人,有一个绕不开的话题:自动驾驶。

自动驾驶的故事我们听了快二十年,从最初的极度乐观,到现在的普遍谨慎。很多人会问:凭什么机器人不会成为下一个自动驾驶,让我们再等上二十年?

Levine 认为这个质疑必须正面回答,而他的论证抓住了三个“技术起点”的差异。

第一,感知与理解世界的能力出现了代差。

2009年甚至2015年,自动驾驶感知系统在很大程度上依赖工程师手写规则与启发式算法;今天,基于 Transformer 的大模型在理解与泛化方面强得多。简单说,AI “看懂世界”的能力,和十几年前已经不是一个量级。这不是小步改良,而是底层范式的变化。

第二,机器人更容易在安全条件下启动学习回路。

自动驾驶的容错率极低,一个小失误就可能带来灾难性后果,所以它无法靠“差点撞到人”这种方式去学习。家用机器人则不同:洗碗时打碎一个盘子,最多是你心疼一下钱包,再让它把碎片收拾干净。这种受控环境里的试错,虽然也不舒服,但至少可承受、可反馈、可迭代,于是学习回路更直接、更高效。

第三,常识的引入改变了游戏规则。

今天的机器人可以利用大型语言模型(LLM)和视觉语言模型(VLM)中蕴含的庞大常识。你给 VLM 看一张写着“当心地滑”的牌子,它不仅能识别这是块牌子,还能理解其中的含义:地板湿,走过去可能滑倒,你应该绕开或小心。这种“不必亲自踩过所有坑,也能通过推理规避风险”的能力,是早期自动驾驶系统很难具备的。

更强的感知与泛化、更安全的学习回路、再加上可被调用的常识大脑,这三者叠加,让 Levine 认为这次的情况与自动驾驶并不相同。

四、机器人“大脑”的组成

说“常识大脑”容易空泛,但 Levine 给出的描述很具体:它不是一个简单程序,而更像一个由两类模块组成的组合体——视觉语言模型(VLM)+ 动作专家。

我们可以把它想象成一个更完整的生物体:VLM 负责“思考、规划、理解”,像大脑皮层;动作专家负责“精确运动控制”,更像小脑和运动神经。两者分工明确,却紧密协作。

比如对机器人说“把桌子收拾干净”,它的摄像头像眼睛一样捕捉桌面视觉信息,输入给 VLM;VLM 在内部把模糊目标拆解成可执行步骤:桌上有脏盘子、空杯子、苹果盒,第一步应该把盘子拿去水槽。

随后,这个“拿起盘子”的指令会被传递给动作专家,由它把抽象命令转化为一连串精确、流畅的物理动作:机械臂以特定角度和力度稳定抓取,避免滑落或碰撞。

这套结构的意义在于:机器人不只是“会动”,而是开始“会规划”,并且能把规划落实为可靠动作。

五、真正的瓶颈:高质量数据

到这里,最大的难题就浮出水面:数据。

大语言模型能学习互联网的文本和图片,但机器人不能只靠“网上的视频”学会叠一件皱巴巴的 T 恤。现实世界的物理互动数据从哪里来?这才是整个领域的核心瓶颈,也是 Levine 反复强调的一点:解决它需要工业级规模的努力,而不仅仅是大学实验室里的科研项目。

很多人会下意识提出一个看似合理的方案:数据不够,那就多搞几千个机器人,让它们 24 小时不停地干活,规模扩大一百倍不就行了吗?

Levine 的回答是:关键不是让它们“蛮干”,而是找到正确的规模化维度。

任务种类的增加当然重要,但更重要的是让机器人在同一类任务里经历足够多的变化:一千件不同材质、不同大小、不同褶皱程度的衣服都能叠好,甚至衣服是湿的、带破洞的、被压住的,它也能处理。

换句话说,真正值钱的数据不是“平稳场景”,而是那些让系统变稳健的边界情况。

目前机器人训练的数据量,相比互联网级别的数据仍然差一到两个数量级,所以策略不是等“收集齐一切”再出发,而是先获得足够高质量的数据来启动飞轮。

一旦机器人能在真实环境中完成一些有用任务,它就会进入自我持续收集数据、正向加速迭代的循环。

六、机器人的涌现能力

如果说飞轮解释的是“为什么会快”,那么真正让人感到震撼的,是另一件事:机器人是否会像大模型一样出现涌现能力?

Levine 的答案是肯定的,而且他把这种能力归因于一种现象:组合泛化。

我们可以把它理解成“像 LEGO 积木一样拼接能力模块”。一个模型未必见过“用国际音标写巧克力蛋糕食谱”这种奇怪任务,但它见过海量的国际音标单词,也见过大量蛋糕食谱的结构,于是它能把两项技能拼起来,生成从未见过的新东西。

机器人也会出现类似的“拼接式创造”。Levine 提到的一些真实案例,听上去甚至比舞台表演更有冲击力:

机器人在叠 T 恤时不小心抓起两件,发现另一件压在下面很碍事,它没有卡住,而是停下动作,把多余的那件捡起来扔回篮子,清空工作区再继续;机器人往购物袋装杂货,袋子翻倒了,它先把袋子扶正,再继续装剩下的东西。

有人故意把短裤翻成里外反面递给它,它在折叠前先自己摸索着把短裤翻回正面。

这类行为的可怕之处在于:它们不是被明确编程的规则,也不是被逐条教会的动作,更像是“为了完成任务而自发出现”的问题解决能力。

当底层的物理世界解决问题能力,再结合上层语言模型的理解与推理能力,机器人就有可能超越简单重复劳动,真正开始应对复杂多变的现实世界。

七、最后一个更大的问题:叠衣服,会不会反而是通向更强智能的入口?

写到这里,你也许会发现一个很反直觉的事实:我们原本以为“叠衣服”是最琐碎的事,但它可能恰恰逼迫系统建立对物理世界的深刻表征。

Levine 在访谈结尾抛出过一个很深的观点:人类之所以能进行复杂的抽象思维,很大程度上源于与物理世界的互动经验。

我们会用“势头(momentum)”“分量(weight)”这样的物理概念去描述抽象事物,这说明物理经验在塑造我们的认知结构。

那么,如果一个AI真正能够深刻理解物理世界如何运作,它获得的可能不只是“叠衣服更快”,而是一套更底层、更强大的隐喻与表征系统,让它处理抽象知识工作时也更强。

换句话说,学会把一件衣服叠得又快又稳,或许并不是家务的终点,而可能是通向下一代通用智能的一块关键拼图。

当数据飞轮真正转起来之后,进步往往不是线性的,而是突然让你意识到——原来门槛已经被跨过去了。

而那一天到来时,我们可能会回头发现,改变一切的并不是舞台上的炫技,而是房间里那件被叠得整整齐齐的衣服。