数据荒引爆万亿风口!跨界资本疯抢具身智能数据采集新质生产力信号站的个人播客

数据荒引爆万亿风口!跨界资本疯抢具身智能数据采集

6分钟 ·
播放数9
·
评论数0

大家好,这里是新质生产力 108 期。AI 大模型靠文本,具身智能靠什么?答案只有两个字:数据。最近一个超级细分赛道突然炸了 —— 具身智能数据采集。跨界资本疯狂涌入、数据工厂全国开建、订单排到满负荷,连五一都在赶工。今天我们就深挖:为什么资本突然扎堆?已经落地了哪些项目?这个赛道到底有多大前景?本期内容基于公开资料整理,不构成投资建议。

先看最扎心的现实:全行业都在 “饿肚子”。智元机器人合伙人公开说,目前全球高质量具身智能数据加起来只有约50 万小时,而头部厂商一年需求就是百万小时级别,缺口巨大、供不应求。你有多少我买多少、什么时候有什么时候要,已经成为行业常态。

再看市场空间,机构预测更炸裂:中国具身智能产业规模,2030 年将达 4000 亿元,2035 年突破万亿元。机器人要走进家庭、工厂、酒店、商超,必须靠海量物理交互数据去 “喂大模型”。数据就是具身智能的石油,数据采集就是新时代的油田开采。

为什么现在爆发?三个逻辑共振。第一,人形机器人进入商用元年,光轮智能、智元、优必选等加速落地,数据需求井喷;第二,技术路线成熟,从高成本真机遥操作,走向低成本无本体 UMI、Ego 第一人称采集,规模化成为可能;第三,资本用脚投票,近 30 天融资近 30 亿,光轮智能单轮近 10 亿,成为全球首个具身数据独角兽,订单直接拿到 5.5 亿。

我们先搞懂:具身智能数据到底采什么、怎么采?目前行业三大主流路线。第一条,真机遥操作,人直接操控机器人完成动作,数据质量最高,但成本最贵,一小时 500—1000 元,适合高精任务;第二条,无本体采集,人戴头显、手套、夹爪设备,直接录动作,成本降到真机的 1/3—1/2,是现在规模化主力;第三条,仿真数据,虚拟场景生成,成本极低、无限供给,用来打底训练。

重点来了,谁在下场?已经落地的项目遍地开花。大厂方面,京东宣布建成全球最大具身智能数据采集中心,发动 10 万员工 + 50 万社会采集力量,打造采、存、标、训、仿、测全链路基础设施;智元机器人在上海、成都建数据中心,旗下觅蜂科技目标 2026 年千万小时、2030 年百亿小时数据产能;帕西尼感知新建 4 座超级数据工厂,鹿明机器人建成 3 个标准化数采场。

更疯狂的是跨界玩家涌入。做自动驾驶数据的博阅科技,去年底紧急切入,在长治、运城建基地,团队扩到 160 人,今年目标采集 10 万 —20 万小时;做动捕的青瞳视觉,具身数据订单翻倍,直接砍掉部分动画业务,全力转向机器人动作数据;还有从大模型转行的星际硅途,自研 Ego 数据平台,扎进家庭、酒店、商场场景采集。

连地方政府都在抢跑。北京、上海、天津、武汉、青岛纷纷建公共数据采集训练场,青岛 1500 平米场地设 7 大场景 28 个工位,年产能超 100 万条数据,用 “场景免费 + 数据服务” 模式造血,成为地方新质生产力标杆项目。

但火爆背后,真相很残酷:利润没想象中高,门槛比想象中大。数据按复杂度定价,高动态动作如跑酷、打球,价格可达 10 元 / 秒;普通任务按小时计费。但采集要租场景、买设备、培训人员、管控质量,定制单多、预算有限,很多厂商坦言只是 “小赚”,比自动驾驶数据还难做。

门槛到底在哪?第一,场景壁垒,要租真实家庭、工业、酒店环境,不是随便搭个棚就行;第二,设备壁垒,高精度采集硬件成本不低;第三,质量壁垒,多模态对齐、轨迹稳定、标注精准,差一点模型就训废;第四,运营壁垒,百人团队标准化作业、质控、交付,缺一不可。小玩家进来容易,活下去很难。

最后我们聊前景:具身智能数据采集,是短期风口还是长期赛道?结论非常明确:这是贯穿未来 10 年的黄金赛道。逻辑很简单:机器人越智能,需要的数据越多;数据越多,模型越强大,形成正向飞轮。现在只是起步,未来会从零散采集,走向标准化、平台化、全球化的数据交易生态。

谁能笑到最后?三类玩家:一是有场景资源的大厂,如京东、智元;二是有技术壁垒的专业厂商,如鹿明、光轮;三是有运营能力的跨界老兵,如博阅、青瞳。纯财务投机、没有质量与交付能力的,会快速出清。

一句话总结:具身智能的竞争,本质是数据的竞争;数据的竞争,本质是采集能力的竞争。当下的疯狂扩产、资本涌入,只是万亿大赛道的起点。我是 LeoPrince,咱们下期见。