浅谈人形机器人｜对话北京通用人工智能研究院黄思远 - DeepTalk

能够像人类一样行走、观察、思考并灵巧操作的机器人，它们不再是被固定在流水线上的机械臂，而是能自主踏入复杂多变的生活环境，成为真正的助手、伙伴甚至探索者。这不仅仅是技术的飞跃，更是一场关于人工智能如何“走出屏幕”、拥有“身体”并学会在物理世界中自主行动的认知革命。人形机器人与具身智能，不仅是科幻作品中的常客，更是引领未来产业变革、深刻理解智能本质的关键钥匙。

本期嘉宾

黄思远：博士，北京通用人工智能研究院（BIGAI）的研究科学家，并担任通用视觉实验室主任，通研院-宇树联合实验室主任。他在加州大学洛杉矶分校（UCLA）统计系获得博士学位，导师是朱松纯教授。他的研究旨在构建一个能够理解和与三维环境交互的类人通用智能体。为实现这一目标，他在以下方向做出了研究贡献：（1）开发可泛化的视觉表征以用于三维重建和语义落地，（2）建模并模仿人类与三维世界的复杂交互，（3）构建擅长与三维世界和人类交互的具身智能体。他的研究发表于五十余篇会议及期刊论文，并曾获得 ICML Bridge Between Perception and Reasoning Workshop 最佳论文，UCLA 优秀博士论文等奖项。他致力于开发能理解三维物理世界的具身智能体和视觉机器人。

主持人

冰冉

时间轴

08:20人形机器人何时可以走进人类社会

15:25在工业界已经有哪些应用了

18:14人形机器人与具身智能

25:58机器人在仿真环境中开展训练

28:34机器人如何建立空间智能

38:00VR/AR 上应用空间智能

47:01空间智能的数据如何获取

57:45当前人形机器人落地应用的最大技术瓶颈是什么

内容聚焦

本期播客聚焦人形机器人、具身智能的核心概念及其对社会的影响。2025 年，人形机器人技术迎来了显著进展，全球首款电机驱动人形机器人成功实现了侧空翻，在成本与技术迭代速度上展现出优势。这一发展得益于大模型、通用人工智能的推动以及硬件与算法的成熟，特别是在视觉技术、空间智能（对三维世界的理解）和端到端算法（如“聚生智能”概念）方面的突破。人形机器人因其在行走便利性和任务泛化上的潜力，被视为适应人造环境的理想形态，正逐步进入工业场景（如巡检、物流、繁重重复劳动），并展现出在家庭服务、养老辅助乃至成为个人全能助理的广阔前景。然而，其发展仍面临核心挑战：空间智能（特别是三维空间深度理解与决策）、高质量真实世界数据的稀缺（限制了模型泛化能力，尤其在处理长尾场景时）、仿真环境与现实迁移的差距（材质、光照差异）、以及寻找可行的通用生活服务应用场景。此外，传感器技术（激光雷达与双目视觉的融合、触觉传感器）、多模态数据融合、模型架构（Transformer 主导但寻求创新）、以及安全隐私、恐怖谷效应等社会伦理问题也需持续探索。尽管存在瓶颈，业界对未来 3-5 年人形机器人提升生产力、解放人类并深刻影响社会经济充满期待，其发展路径被认为更可能从特定功能逐步迭代至通用智能。

制作团队

主持人：冰冉

剪辑：嘉鱼

运营：大壮