20. 特别节目:世界模型-开启机器人探索之旅EqualOcean出海全球化会客厅

20. 特别节目:世界模型-开启机器人探索之旅

14分钟 ·
播放数34
·
评论数0

【本期嘉宾】

  • 周 泉 大晓机器人战略负责人

【本期内容】

2026 年 3 月 25 日下午,由出海全球化新型智库 EqualOcean 主办、魔数无界品牌加速协办、DataStory 支持的 “新锐行业出海沙龙 —— 人工智能出海沙龙” 在上海成功举办。来自UCloud、e签宝、飞书深诺集团、大晓机器人、钛虎机器人等科技企业的创始人、负责人及行业专家进行了精彩分享,共同为 AI 出海企业提供前沿洞察,并搭建产业链接机会。

活动现场,大晓机器人战略负责人周泉发表了主题为《世界模型:开启机器人自主探索之路》演讲。

周泉结合行业观察认为,具身智能发展历经人工标注、大语言模型两个阶段,正进入以自主探索为核心的 3.0 时代,研发范式从以机器为中心转向以人为中心。世界模型作为支撑机器人自主探索的关键技术,通过构建 “理解 - 生成 - 预测” 一体化多模态架构,可让智能体基于物理规律与因果逻辑认知世界、完成场景交互与未来状态预测。开悟世界模型 3.0 提出跨本体统一理解框架,在理解精准度、生成物理一致性、长时场景交互、实时推理速度与端侧部署能力等方面具备技术优势,支持多本体任务泛化并可适配国产算力平台,同时面向行业开源,为具身智能落地提供技术支撑。

以下为演讲实录,由EqualOcean 编辑整理。

大家好,我是周泉,大晓机器人的战略负责人。大晓机器人成立于 2025 年,是商汤科技孵化的具身智能公司,核心定位是构建机器人的"大脑"。

今年以来,人形机器人在春晚等场合的打拳跳舞表演引发了广泛关注。这些展示主要体现了运动控制能力,但当真正面对产线搬运、货架整理或精密装配等任务时,机器人往往难以胜任。核心瓶颈不在于肢体控制,而在于认知与决策——即机器人的"大脑"尚无法理解物理环境中的操作逻辑,例如判断物品放置位置的正确性,或规划复杂装配流程。

从 CV 到具身智能:AI 演进的三阶段

回顾人工智能的发展脉络,计算智能的演进经历了三个关键阶段:

  • 第一阶段是计算机视觉(CV)1.0 时代。这一时期依赖小规模模型与人工标注数据集(如 ImageNet),通过人工在图像上标记物体边界与类别,训练模型识别能力。智能水平与人工标注量直接挂钩,本质上是有多少人工,就有多少智能。
  • 第二阶段是大语言模型(LLM)时代。以 Transformer 架构为基础,模型通过学习互联网上海量的文本与图文数据,掌握了人类自然语言与虚拟世界的知识关联,实现了对语义信息的深度理解。
  • 第三阶段即当前的具身智能(Embodied AI)时代。这一阶段的挑战在于理解物理规律与三维空间,实现与真实环境的交互。机器人与自动驾驶的范式非常相似,许多从业者从自动驾驶转向机器人领域。特斯拉依托 700 万辆车辆在路上跑,每天可采集约 4 万小时数据,这还不包括大量仿真数据。

但机器人行业面临严峻的数据瓶颈:即便出货量最大的厂商,如智元、宇树,一共出货也就 5000 台,对比千万小时的目标,现在大概都是十万小时量级的整体数据。按传统方式再跑 10 年估计差不多,但肯定等不了,需要一个更高级的路径。

破解数据难题:世界模型与可穿戴设备

针对传统数据采集方式,中心遥控成本高昂,与视频学习缺乏 3D 空间理解,无法理解视频里的三维空间逻辑的局限,我们提出了基于世界模型的解决方案。

核心逻辑是让真人佩戴与机器人同构的传感器,头戴摄像头、手上的 IMU 传感器、加上手机的摄像头,在真实场景(仓储、工厂、家居、零售等)中进行伴随式工作与数据采集。通过世界模型对这些海量人体数据做 Retargeting,结合少量真机数据做映射,作为理解的物理空间、把人的意图往机器人映射的锚点,就可以把人的数据用于机器人上面。

可穿戴设备的成本很低,而且可以规模化——不是说你要配两个人再加一台机器人在那采,而是在真实场景铺个一千一万套,快速把这个量给采出来。

我们的技术底座源于商汤 2024 年开源的世界模型 1.0,当时上海市训练场用此作为基模型,目前已迭代至 RaaS 3.0(Robot as a Service),即具身专用的世界模型 3.0 版本——Kairos 3.0。

技术架构:物理规律、数据生成与端侧部署

整个世界模型的架构包含四个核心部分:

  • 首先,通过大量的互联网文本数据与自然语言描写去构建思维链(Chain-of-Thought),让模型理解物理规律。
  • 第二块,通过海量真人数据,去模拟人在真实处理环境下动作意图与外界交互的行为。
  • 第三块,加入真机动作数据,与人类的这些数据做映射,构建理解的物理空间与意图映射的锚点。
  • 第四块是VRM(多模态大模型),能够把多模态的语言做很好的整合,帮助模型更好地理解世界。

此外,世界模型还能做数据生成与泛化——很多场景即使是真人的数据也很难采,通过模型可以做比较好的数据增长跟泛化。

物理规律理解案例

当前许多世界模型在物理规律理解上存在明显缺陷。比如英伟达、OpenAI 的模型在处理"接水"任务时,会出现穿模现象——上面两个水杯没有放到水缸的下面却接到了水。如果没有理解物理规律,生成的数据是不可用的,机器人无法真实执行。

我们的模型通过思维链把整个动作做拆解。另一个例子是拼积木("Print is the logo"):怎么感知上面有多少个积木,然后一个积木怎么去拼出 A、拼出 C、拼出 E。这个题目很难,英伟达和 OpenAI 的模型基本上拼不出来,后来实在拼不出来就"突变"出一个 A 出来。我们的世界模型能够通过思维链把能力和场景做比较好的理解和规划,同时保持因果的一致性,不会失真。

我们上周刚发布了 4B 模型,做数字增广,激发整个场景背景。从机器人开始整理垃圾、洗衣服、做早饭,生成的视频里光影效果、水杯晃动都符合物理规律。这个模型生成的场景与动作轨迹都是准确的,可以让机器人真实拿这个模型做单去做对应的交互。

长程推理与端侧效率突破

我们的模型支持超过 7 分钟的连续推理,是全球推理时间最长,这是因为在整个大模型推理过程中间,它会持续累积。

现在很大的一个问题是效率与端侧部署。许多世界模型因为有 3D 空间生成能力,处理 5 秒的事情要 361 秒,太慢了,根本没办法让机器人做交互——你跟他说句话,他可能等 5 分钟才能回应。虽然我们感知理解能力更强,但效果有限。

我们跟英伟达等厂商形成战略合作,在不同端侧上面,对比国内外顶尖模型都有数十倍的提升。

此外,世界模型包括具身智能都非常耗卡、耗算力。当前我们也跟 CRBR、时光等做战略合作,推进模型性能的优化等等,提升性价比,降低成本。

Benchmark 与开源

我们上周刚发布了Kairos 3.0-4B,刚开源,在各个 Benchmark 上面都是行业 SOTA(State-of-the-Art),包括生成的 Benchmark、预测的 Benchmark。在国内国外领先的模型中,包括像阿里的 Web、英伟达的 Cosmos 等等,我们都是领先的。

目前整个公司的壁垒,其实不在于当前的算法。说实话,不管是矩阵模型还是世界模型,大脑还处于早期。真正拼的是迭代的速度——处理千万小时这样数据的能力,工程化质量的保证,这才是作为一家大脑公司的核心能力。

当前模型作为行业基础设施的建设,我们欢迎更多开发者可以参与进来,基于我们这个模型做更多垂类的开发,针对垂类的场景做定制化开发,能够从 0 到 1 把一些场景给做起来。把行业从早期慢慢推向快速的落地跟成熟。

这是我们开源的社区,欢迎大家关注。谢谢大家!

【近期活动——GGF2026】

【关于EqualOcean】

EqualOcean成立于2018年11月,是一家专注于服务中国品牌全球化、帮助海外企业或机构把握中国发展机遇的商业信息平台和智库。针对中国做全球化的客户,EqualOcean提供宏观政经分析、海外市场与行业研究、品牌国际定妆照、海外资源搭建等。

EqualOcean旗下有中、英文网站,是国内极少具备英文深度报道和英文深度报告撰写能力的机构;EqualOcean的英文内容授权发布到Bloomberg Terminal、Refinitiv、SeekingAlpha、Nasdaq等平台,EqualOcean的商业分析师常年接受Wall Street Journal、New York Times、Financial Times、SCMP等知名媒体的采访。