Vol.16 清华创业科学家许华哲：从智能“破壳”到家庭具身，在AI大浪里“死磕”原创

本期节目是对云启最新领投天使轮的具身项目「破壳机器人」创始人许华哲的深度访谈，也是一场有点特别的“老友记”。许华哲和他的第一个投资人——云启执行董事桑煜，展开一场跨越 AI 1.0 技术演进脉络的深度对话。

同为清华电子系 2012 级校友，他们完整亲历了从 2012 年 AlexNet 开启的感知时代，到如今具身智能翻越“崇山峻岭”迈向家庭的关键转折。

68 分钟，有深入浅出的 AI 技术变迁和家庭具身路线讨论，也是一场关于人和事、关于技术信仰和个人抉择的对谈。从多伦多实验室的微光，到伯克利强化学习的爆火；从“被榨干”的创业乐趣，到“洗坏真丝衣服”的直觉物理。有故事有干货，敬请收听。

【你将听到】

清华电子系老友记：90 后具身创业者与投资人亲历的 AI 技术范式变迁
技术路径拆解：强化学习、世界模型、在线学习，谁是通往“物理直觉”的底层解？
定义家庭机器人：如何打造主动干活的家庭成员？如何应对“熵增”环境与隐私顾虑？
拒绝“蒸馏”跟随：面对算力与数据的真实差距，中国具身如何建立原创智能的护城河？
是科学家创业者的“个人市场化”：build in public 是好选择吗？
商业探索：量产喧嚣之外，为什么做那些重要但看起来“不重要”的小事？

【时间轴】

PART 1 从 2012 到 2026，我们亲历的 AI 范式更迭

01:33 毕业十年：从清华电子系同窗到具身智能再交汇
03:18 2012 年：当年大家还在刷微积分，神经网络还是“粗暴过拟合”的代名词
05:42 结缘深度学习：多伦多大学交换，撞见神经网络的微光
08:52 早期行业图景：吴恩达 CS229、清华东门外的商汤旷视，以及消失的 MRF

PART 2 强化学习的信仰与低谷中的种子

11:02 伯克利时刻：早期强化学习如何塑造了技术信仰
17:18 低谷中的种子：ETH 的机器狗与被低估的 Scaling Law
21:08 选择回国：那篇关于“理想之地”的长朋友圈

PART 3 破壳机器人的技术选择

22:13 利用“失败数据”进行反馈学习，让机器人学会自主试错
24:24 具身世界模型应该在像素空间还是隐空间预测？
29:25 为什么是强化学习？像人类一样在交互中习得“物理直觉”
31:48 数字世界与物理世界的 AGI，方法论如何共通？

PART 4 为什么是家庭机器人？

33:39 产品定义：拒绝固定功能的家电，它应该是“保姆型家庭成员”
37:21 个性化潜力：洗真丝衣服还是洗臭袜子？千人千面的性格设定
40:03 为什么选家庭赛道？梦想、熵增的数据宽度与 ToC 的商业图景
41:39 进家时刻表：离通用机器人还远，但离“好产品”进家很近了
44:44 2026 关键变量：乌米（UMI）无本体采集与在线学习的技术拐点
45:52 隐私顾虑何解：为什么扫地机长得矮更容易被接受？

PART 5 ：Builder 能量与创业哲学

50:13 做自媒体是为了“信息平权”，也是为了接收市场的“毒打”
54:52 行业“锐评”：具身智能不应只有量产，拒绝低水平的“模型蒸馏”
59:00 创业体验：享受被“榨干”的感觉，游戏难度请选 Difficult
01:02:04 自我要求：坚持原创，并死磕那些重要但看起来“不重要”的小事
01:06:31 和许华哲一起搞事情，「破壳机器人」招人中！

【注释：节目里提到部分的人和事】

Geoffrey Hinton & Ilya Sutskever： 前者被誉为“深度学习之父”，2012 年 AlexNet 论文作者之一；后者为 OpenAI 前首席科学家。他们的工作开启了 AI 的感知时代。
Pieter Abbeel & Sergey Levine： 伯克利（UC Berkeley）机器人学习领域的泰斗，在深度强化学习与机器人的结合方向上具有开创性贡献。
Yann LeCun (杨立昆)： 图灵奖得主，Meta 首席 AI 科学家。节目提到的“隐空间预测”是他倡导的世界模型路线（JEPA 架构）的核心。
Raquel Urtasun： 自动驾驶公司 Waabi 创始人，多伦多大学教授，曾任 Uber ATG 首席科学家。
VLA (Vision-Language-Action)： 视觉-语言-动作模型。将视觉感知、语言理解直接映射到机器人动作输出的端到端架构。
世界模型 (World Models)： 指 AI 对物理世界运行规律的内部模拟。优秀的具身世界模型应具备预测未来状态（如物体受力后的位移）的能力。
强化学习 (Reinforcement Learning, RL)： 一种通过“试错”与反馈来学习最优策略的机制。文中强调了其在处理“失败数据”和建立“物理直觉”上的独特价值。
PPO (Proximal Policy Optimization)： 近端策略优化算法。目前 AI 领域最广泛使用的强化学习算法之一。
在线学习 (Online Learning)： 指模型在部署后，能根据实时交互数据不断自我迭代，实现“越用越聪明”，而非出厂即锁死能力。
Scaling Law (规模法则)： 指模型性能随算力、数据量和参数规模指数级增长的规律。
乌米 (UMI)： 一种新兴的、无本体的具身数据采集方案，能大幅降低高质量真机数据的获取成本。
EGO Data： 第一人称视角数据。通过佩戴设备记录人类操作，为机器人提供“人类视角”的学习素材。
遥操作 (Teleoperation)： 由人远程控制机器人动作，以采集机器人执行任务时的运动数据。
正向设计 (Forward Design)： 指从需求目标出发，进行底层的原创研发，而非对现有产品进行逆向工程或简单拼凑。

🏢 关于云启

云启资本成立于 2014 年，是一家专注深耕数智化和硬科技领域的早期领投方。我们曾连续多年蝉联清科、投中、36氪等机构评选的「中国最佳早期投资机构 TOP 10」。

在过去的 12 年里，我们陪伴了 200 多家科技创业公司共同成长，包括MiniMax、京东工业、群核科技、元戎启行、新石器无人车、擎朗智能、自变量机器人、星尘智能、睿尔曼智能、穹彻智能、PingCAP、Zilliz、宇石空间、XTransfer 等行业领军企业。

📩 联系我们

BP投递or生态合作： community@yunqi.vc
微信公众号： 云启资本 (ID：yunqipartners)
小红书： 安福路云小启