
AI 原生一代,将写下怎样的新故事。这是这一轮 AI 浪潮以来,投资人们最关心的问题。
今天的访谈嘉宾,是 00 后具身创业者,陈源培。
他曾在斯坦福李飞飞的实验室,实现了全球首次双臂长程灵巧操作,以及全球首次「用人类数据训练机器人双臂灵巧操作」。
土木工程本科出身的他,高考前一天还在打游戏,却通过 Robomaster的比赛结缘机器人,并跨界师从北大强化学习专家杨耀东,成为强化学习的前沿学者,继而进入斯坦福李飞飞的实验室,做出全球首创的成果。
相比「天才少年」叙事,这期更值得品味的,是一个一再印证,学习没有固定范式、创新没有标准答案的故事。以及开放、多元、包容和谦卑的学术品味与视野。
无论游戏、RoboMaster、科研,在源培那里都有一条共同线索:它们都像升级打怪,靠快速学习、持续探索和反馈提升能力。希望其中的思考方式,能给大家启发。

(本期视频欢迎前往 b 站、视频号、小红书、Youtube 等平台观看~)
本期嘉宾:陈源培,灵初智能联合创始人
本期 Shownotes:
从游戏到 RoboMaster:工程能力从系统里长出来
高考前还在打牌的 00 后:通宵打游戏,差点被选去电竞青训
父母最大的影响是「完全不管我」
大疆 RoboMaster 冠军:机械、电控、嵌入式、上位机、控制、算法…训练的是复合能力
深入代码底层,不会并不是一个门槛
机器人并不是单点算法问题,全栈系统思维是稀缺的
工程性的东西,更多看的是细心程度与快速学习能力
俄乌战争给源培的「觉醒」——突然觉得发 paper 、抠创新点,对世界没什么帮助
师从杨耀东,最早 Isaac 使用者与并行仿真
师从强化学习知名学者杨耀东,用强化学习做灵巧手
零帧起手强化学习
OpenAI 的 Shadow Hand (2019)的解散,强化学习解魔方——酷但昂贵
「我是英伟达 Issac 最早的使用者」「那个版本应该绝版了」
「未来用 GPU 做仿真,一定是大势所趋」
首篇论文即震撼行业:高自由度操作可以在大规模并行仿真中训练出来
强化学习 vs 模仿学习,什么是训练直觉?
强化学习的峰回路转:监督学习和模仿学习的短期效果让强化学习一度被质疑;直到O1 等方向又重新证明了强化学习的价值
模仿学习见效快,但泛化弱;强化学习潜力大,但极吃 Know-how
模仿学习不是未来
从人手中心到物体中心:描述物体轨迹如何变化,让机器人知道大致目标,再在小范围里探索
奖励不需要把每个动作写死,需要留有空间任 AI 自己探索
真正的系统能力是「方法都告诉你了,但你调不出同样效果」
我训强化学习还挺厉害的:「基本上大家以前都看曲线,只有我是打开仿真,盯着机器人学习。」
进入斯坦福李飞飞实验室:从强化学习中心主义,到多元的学术视野,与技术地图
每条路线都有价值,未来更可能是吸收各自优点的融合过程
更开放的研究氛围:连接图形学、灵巧手、模仿学习、人类数据
师从 Karen Liu :把机器人操作、动捕、人类数据和仿真强化学习连接起来
不要太 Ego,不要靠形容词证明强,让结果本身说话
一周可以水一篇顶会的代价是放弃自己其他可能性
「从斯坦福回来后,他像变了个人一样」
跳出舒适区 + 螺旋上升的具身技术史
具身技术发展的螺旋:抓取→ CV+模板 → 直接学轨迹(模仿)→ 人遥操太慢 → 强化学习自己探索 → 仿真效率低→ Isaac Gym 并行仿真+Sim-to-Real → Sim2Real Gap 太大→ 软体场景模仿学习反超(Diffusion Policy/ACT)→模仿学习也不够→ 后面接强化学习→世界模型起来后,又回到仿真训 RL
灵巧手最大的价值,不是因为它像人,而是因为它最容易吃下人类操作数据
与夹爪或专用末端执行器相比,五指手和人手之间的 Embodiment Gap 更小,更适合做 Human-Centric 数据采集
「以物体为中心」的通用表征:操作的本质是让物体沿某条轨迹发生变化,而不是复刻人的每个关节动作
具身 Scaling Law 的核心可能不在遥操数据,而在人类日常操作数据;
硬件形态本身会决定能吃下什么样的数据
Sequential Dexterity 的祛魅:学术需要 novelty,这没太大意义
仿真派的价值和上限
我曾经就是个仿真派
仿真无法根本解决真实世界复杂交互,尤其在软体、碰撞、接触和高精度成功率方面
可微仿真和世界模型都试图缩小 Sim2Real Gap,但目前仍受限于算力、图形学、物理交互和数据量
仿真 vs 真机,谁快?仿真的场景 Scaling 能力未必比真实世界快
仿真可以做出很 Fancy 的 Demo,但不是当前可见的终局
如果世界模型足够强到生成全场景仿真,它本身也需要先吃下海量真实数据——如果做出了世界模型,那肯定先做出了好用的 VLA
一个研究者最重要的能力不是在舒适区里把"已经会的事"做得更深,而是逼自己跳到不熟悉的方向;这一点反人性反惰性,因为你在擅长的方向也确实有想探索的东西
具身 Scaling Law 会撞上硬件问题
具身 Scaling Law 的核心问题是数据,单靠遥操数据很难堆到足够规模
百万小时级别的人类中心数据,至少能让行业看到一些效果
「我是实用主义派」
与语言模型不同,具身智能会遇到硬件差异:不同手、不同本体、不同自由度都会影响数据和模型泛化
跨本体泛化的关键,是提取人类操作中通用的信息,再用强化学习补足机器人具体关节、力和接触细节
语言模型可以在统一的 token 空间里 Scaling,具身智能必须同时解决数据规模和硬件本体差异
创业后的路线选择:先坚定,再快速调整
2024 创立灵初时,市场上很少有人强调灵巧手操作和强化学习
择做长程灵巧操作、强化学习、人类中心数据和双手路线,对于一家创业公司,是信仰和耐心的考验
要去做别人做不到的事
当前的路线没有不能复刻的,都不够本质:但仍然保持灵活,可快速调整
具身创业的难点是同时平衡商业化和预研,短期场景可以做,但公司不能忘记自己到底是不是模型公司
「你不能有包袱,最后还是结果说话。」
世界模型、VLA 和算法口号的泡沫
灵初的具身大脑是糅合路线:硬件、采集、数据处理、模型训练和部署,形成端到端闭环
模型架构和口号本身不是护城河
广义 VLA 只要输入视觉和语言、输出动作即可
World Action Model 也只是增加未来帧预测等辅助监督
单靠改模型架构、模块连接方式就带来突破性变化,我认为这几乎是不可能的
真正重要的是训练范式、数据规模、数据质量和完整 Infra
马斯克为什么不喊世界模型——世界模型本身不产生价值,真正产生价值的是它能否在具身、能源、航天或其他真实任务中解决问题
具身行业的泡沫:太多人说的和做的不一样,一些投资看不太懂
主动世界模型:从数据里选择有用信息
关于「主动世界模型」的思考:机器人需要主动判断哪些信息有用,哪些是噪声
世界感知分成客观世界规律、主动选择机制和自身 Policy 三层,其中最缺的是中间那层主动选择
数据 Scaling 不是无脑加数据,低信噪比数据可能损害模型能力
我是实用主义:脑科学、神经元结构、主动世界模型等想法都可以借鉴,但必须通过效果验证
具身下一阶段的底层创新:可能不是继续堆模块,而是找到类似语言模型 next-token prediction 的训练范式
「我的人生,绝对不可能不快乐!」——兴趣、非标与系统性思维
不要害怕环境、专业或起点带来的限制,去做自己真正感兴趣的事
机器人人才,最重要的三点:追求卓越、系统性思维、不要太 Ego
「再垃圾的 paper,也有你可以学习的点!」
「我追求的是影响力,对真实世界产生价值的影响力」
未被验证的人才和未被验证的路线,可能写下真正的突破
加入听友群⬇️:


