🎙️ 【本期简介】
开年以来,千寻智能(SpiritAI)已接连完成两轮融资,总额近 30 亿。
具身智能正在快速成为资本与市场的共识。
当新的热点与叙事不断涌现,高阳的关注点却不在外部变化,而始终落在内部同一命题上:如果要实现具身智能的通用基础模型,下一步面临的问题会是什么?如何把问题真正解决?
北坡计划第一期,我们邀请了千寻智能联合创始人、清华大学助理教授高阳,围绕具身智能即将进入的“GPT-3 时刻”展开讨论。从数据、模型到系统能力,拆解这一判断背后的技术前提与未来展望;我们也把问题拉回个体,高阳是我们所有受邀嘉宾中,语速最慢的。他说:人不过是会思考的芦苇,不疾不徐,不试图成为某种“标准答案”,而是在外部价值选择与个体快乐之间不断回到自身,坚持内在节奏,展开属于自己的生命力。
👤 【嘉宾介绍】
高阳:千寻智能联合创始人兼首席科学家,清华大学交叉信息研究院助理教授。
本硕毕业于清华大学,博士毕业于加州大学伯克利分校(UC Berkeley)。他是全球具身智能与视觉-语言-动作模型(VLA)领域的顶尖青年学者。
🕒 【精选时间戳】
04:34 24 年初谈具身大模型,连学生都不信
07:15 ChatGPT 出来那一刻,他在伯克利的 AI 价值观被重塑了
08:37 既然大语言这条路走通了,具身智能为什么不行?
13:11 两年前预测要 5–8 年,现在的判断提前到了 27 年
17:52 一千万小时的数据,6000 个人,几个月。这件事中国有经验
29:42 评价一个具身模型,今天最重要的指标只有一个:泛化性
32:48 同门师兄弟 Sergey 和他,技术路径上的一致与分歧
39:26 未来的机器人是一个"多频谱"系统
48:36 如果有长生不老药,还会做一辈子机器人吗?
01:06:31 给科学家创业者:什么是信号,什么是噪声?
01:08:34 老子的"俭"不是节俭,是不耗散
01:11:32 ”价值还是快乐?我选择快乐“
📚 【相关提及】(这次有点多,但都很有价值)
关于技术:
- Scaling Law:缩放定律(OpenAI 于 2019 年提出)。指模型性能会随计算量和数据的增加而规律性提升,具身智能正在探索其在物理数据上的边界。
- VLA (Vision-Language-Action):视觉-语言-动作模型。一种端到端的具身智能架构,能让机器人“看懂”环境、“听懂”指令并直接输出物理动作。
- World Model:世界模型。能够理解并预测物理世界下一个状态的 AI 模型,未来有望在仿真环境中生成海量机器人训练数据。
- 遥操:远程操作(Teleoperation)。指人类通过设备远程控制机器人完成动作,当前市面上部分看似智能的机器人演示实则依赖此技术。
- Locomotion:运动控制。机器人的底层移动与平衡能力,控制频率极高,类似于生物的本能反射。
- Transformer:目前大模型通用的底层架构 。它像是一个高度灵敏的“注意力转换器”,能够捕捉数据序列中跨度极大的关联信息,是 ChatGPT 和具身智能大脑的共同基石 。
- 端到端 (End-to-End):一种“直达”的技术方案。指模型直接从原始输入(如摄像头画面)输出到最终结果(如机械臂动作),中间不经过人为设定的繁琐规则,让机器自己学习其中的映射规律。
- 泛化性 (Generalization):衡量具身智能含金量的核心指标。指 AI 在面对从没见过的环境或任务时,依然能表现出正确判断的能力,而不是只能机械地重复在实验室里练好的动作。
- Universal Function Approximator:通用函数拟合器。神经网络的基础数学理论,指拥有隐层的神经网络可以拟合世界上任何连续函数。
- CRISPR :基因编辑技术。节目中借此畅想未来人类可能通过修改基因大幅延长寿命的极端科幻场景。
- PR2 (PR two):一款经典的双臂科研机器人,是早期学者进行机器人抓取与控制实验的重要平台。
关于公司:
- Generalist:全球具身智能前沿的初创公司,在真实物理世界的数据收集量上处于行业领先地位。4月2日最新发布的Demo,已宣称拥有 50w 小时数据。
- Physical Intelligence (PI):美国顶尖的具身智能初创公司,强调具身智能模型“通用性”。
- World Labs:由李飞飞创立的 AI 初创公司,正转型投入具身智能与“空间智能”的研发。
- AMI Labs:Yann LeCun 创办,致力于探索更具通用性的人工智能架构。
关于人:
- Sergey Levine:加州大学伯克利分校教授、Physical Intelligence 联合创始人,被高阳形容为机器人领域的“活体维基百科”。
- Peter Thiel:彼得·蒂尔。硅谷著名投资人、PayPal联合创始人,也是著名的《从零到一》作者。
- Jitendra Malik:加州大学伯克利分校计算机视觉泰斗。他关于“动物为什么需要视觉”的进化论视角,启发了高阳转向机器人领域的研究。
- 吴翼:清华大学交叉信息研究院的杰出青年学者,蚂蚁集团强化学习实验室首席科学家,负责大模型强化学习方向研究。
- 许华哲:清华大学交叉信息研究院助理教授,高阳在伯克利实验室时期的学术同门。研究聚焦具身人工智能的理论、算法与应用,深度强化学习与机器人学等。
- 李飞飞:斯坦福大学教授,计算机视觉领域的先驱,ImageNet 发起者,World Labs 创始人。
- LeCun:杨立昆(Yann LeCun),深度学习三巨头之一,图灵奖得主。
关于理念:
- 会思考的芦苇:源自法国哲学家帕斯卡尔的隐喻。指人类在肉体上像芦苇一样脆弱,但因为拥有独立的偏好与思考能力,从而具备了不可替代的特殊价值。
- 老子的“三宝”:出自《道德经》的“一曰慈,二曰俭,三曰不敢为天下先”。节目中特指“俭”,意为不耗散自己的心力与欲望。
🎵 【音乐】
Jordan Critz - Beau Et Rapide (Piano)
🎤 【创作团队】
主持|张津剑
出品|绿洲资本
剪辑制作|声度 Studio 播客工作室
💬 【互动时刻】
小助理微信:VB20240606
如果在你面前有两个选择:一件是世俗意义上具有巨大“价值”但让你痛苦的事,另一件是让你发自内心“快乐”但看似无用的事,你会怎么选?欢迎留言评论!
我们将为评论区最高点赞的 3 位听友,赠送高阳播客结尾所说的绿洲小书一本。
免责声明
本播客所述投资相关内容皆以交流分享为目的,仅供参考,不构成任何市场预测、判断,或投资、咨询建议。感谢您对原创内容的青睐!如转载或引用本播客所述内容,请注明出处。转载前请与绿洲联系并取得同意。


其中小猪在路上呢、贴贴我的猫、狂野时代的小熊三位听友的评论获得了最高点赞,欢迎来联系小助手领取书籍呀🫶