六位大佬深度对话!探讨世界模型(World Model)的一切青稞访谈

六位大佬深度对话!探讨世界模型(World Model)的一切

126分钟 ·
播放数283
·
评论数4

 

4 月 23 日(周四)晚 7 点,#青稞 AMA 第 2 期:World Model 专题

嘉宾阵容

(主持人)杨佳智,UHK MMLab PhD 二年级在读

以共同第一作者身份发表 UniAD, 获得 2023 年 CVPR 的最佳论文奖。 关于世界模型的两项研究获得 CVPR 2024 spotlight (前 2.8%) 和 NeurIPS 2025 highlight (前 3.2%)

近期推出的 RISE 架构,是首个在机器人复杂操作任务中,利用世界模型进行强化学习以提升策略表现的研究。个人谷歌学术被引用量超过 2400。个人主导项目的 Github star 数超过 6000。

王啸峰,极佳视界算法合伙人

2025 年博士毕业于中国科学院自动化研究所,主要研究方向为物理世界模型。博士期间在 TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI 等国际顶级会议与期刊发表论文 20 余篇,总引用量 2000 余次,并多次在 CVPR 主办 Workshop 与国际竞赛。

自动驾驶世界模型代表性工作 DriveDreamer 入选 ECCV 2024 Most Influential Papers;在具身智能方向牵头研发的 GigaWorld 系列世界模型斩获国际赛事榜单第一名。由其主导研发的世界模型技术,已在国内多家头部具身智能与自动驾驶企业实现规模化落地应用

贾萧松,复旦大学可信具身智能研究院助理教授

本博毕业于上海交通大学,研究方向自动驾驶、具身智能、世界模型。在 TPAMI、CVPR、NeurIPS 等国际顶级会议期刊发表论文 30 余篇,谷歌学术引用 4000 余次,代表作包括Bench2Drive、DriveTransformer、Think2Drive等。

廖康,新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员

他于北京交通大学信息科学研究所获得博士学位,期间曾赴德国马克斯 · 普朗克计算机科学研究所担任访问学者。

相关研究成果已发表至国际顶级期刊和会议如 CVPR、ICCV、ECCV、ICLR、NeurIPS、ICRA、TPAMI 等。此外,他受邀担任 CVPR、NeurIPS 等国际学术顶会的领域主席(Area Chair)。他目前的研究方向包括统一多模态模型、空间智能以及世界模型

王宇琪,2025 年博士毕业于中国科学院自动化研究所

主要研究方向为世界模型,自动驾驶感知与决策。

博士期间在 TPAMI、CVPR、NeurIPS、ICLR、ICCV 和 ECCV 等国际顶级会议与期刊发表论文十余篇,总引用 1800 余次,并荣获国家奖学金、中国科学院院长奖等多项荣誉。Drive-WM 成为自动驾驶世界模型领域的代表性工作。

李天羽,复旦大学、上海创智学院计算机科学博士生

师从李弘扬教授,在 OpenDriveLab 开展研究。聚焦端到端自动驾驶与 Physical AI,构建“评估—仿真—强化学习”闭环方法论。

提出 World Engine,融合 3D 高斯重建(MTGS)与行为世界模型(Nexus、OMEGA)生成长尾交互数据,提升闭环安全性与泛化能力;相关工作(SimScale、PlannerRFT、R2SE)系统推进 sim-real scaling 与强化学习优化,在复杂场景中突破模仿学习上限。构建社区标准评测基准 NAVSIM 及 NAVSIMv2,支撑多项国际竞赛。累计发表论文 20 余篇,担任 Nature、Science Robotics 审稿人。


部分内容总结

00:31:30

主持人杨佳智开场并引导嘉宾进行自我介绍与研究背景分享。杨佳智介绍了自身在自动驾驶世界模型与机器人操作领域的工作,随后各位嘉宾依次发言:王啸峰阐述了其从自动驾驶到内容行业的物理世界模型探索历程;王宇琪分享了从自动驾驶预测到自回归视频生成的研究路径,并分析了Sora、R1等技术带来的认知转折;贾萧松从强化学习与仿真器角度切入,探讨了基于世界模型的强化学习在自动驾驶中的工程挑战;廖康则从3D视觉重建转向统一的理解与生成模型,强调了物理先验与模型快速跟进的重要性。

00:52:43

主持人杨佳智系统梳理世界模型的四种主流范式,并抛出核心议题:在大数据与大模型时代为何仍需世界模型。杨佳智将世界模型归纳为动作条件模型、视频预测加逆动力学模型、视频与动作联合建模模型以及子目标生成加目标条件策略模型四类。随后,王啸峰从数据引擎、仿真器与策略生成器三个应用层面,论证了世界模型在补充稀缺数据、降低真机测试成本以及实现更高效的预训练-后训练知识迁移方面的必要性。

01:08:19

深入探讨世界模型作为仿真器的能力边界与数据需求。杨佳智提出世界模型能否准确反映失败动作的疑问。王啸峰基于近期比赛结果指出,通过合理的数据配方(混合成功与模型rollout数据),动作条件世界模型与真实世界的匹配度可达70%以上,并比较了显式与隐式动作条件控制的优劣。贾萧松则从消除轨迹歧义性的角度,提出世界模型可通过生成确定性未来来指导策略学习。

01:10:31

对比分析视频预测策略与直接动作预测策略的优劣。针对为何视频预测模型(如PaLM-0.7中的规划器)比直接输出动作的策略更具确定性和泛化能力的问题,王宇琪指出关键在于视频生成模型提供了更强的视觉泛化性;廖康认为视频token作为正则项能缓解动作token的过拟合;杨佳智则反思当前VLA策略缺乏表征学习,其监督信号过于稀疏。讨论共识是密集的视觉监督有助于学习更鲁棒、可迁移的表征。

01:20:51

辩论世界模型应在何种表征空间进行构建。针对李飞飞(像素空间)与LeCun(潜在语义空间)等不同技术路线,嘉宾们进行了多角度分析。廖康认为选择取决于下游任务,像素空间保真度高但昂贵,潜在空间灵活但可控性差。王宇琪指出当前缺乏强大的3D基础模型,但3D感知表征可能比像素更高效。王啸峰强调表征选择需结合具体应用,并倾向于将为动作生成服务的潜在空间称为“动作空间”。贾萧松提出了轻量策略模型与重型仿真模型分层的可能性。

01:35:00

探讨世界模型与策略模型的架构统一性及训练范式。王宇琪基于UniVLA工作,分享了在统一自回归架构下进行视频预训练对下游策略学习的促进作用,并认为自回归架构更利于建模因果关系。王啸峰介绍了GigaWorld Policy中联合视频与动作监督的预训练实验,发现其在数据有限时能加速收敛,但数据配方影响巨大。廖康认为自回归与扩散模型可结合,分别处理高级规划与精细生成。杨佳智指出当前趋势受可用预训练模型影响,未来可能螺旋式发展。

01:44:52

分析世界模型训练所需的数据源构成与仿真数据价值。贾萧松分享了在Rescene工作中混合仿真失败数据以提升真实世界失败案例生成能力的发现。王啸峰指出需混合网络数据与机器人数据以保持泛化能力,并强调自主探索数据的重要性。王宇琪从数据多样性(交互、世界知识)角度补充了筛选经验。杨佳智介绍了“仿真蒸馏”仅用仿真数据预训练世界模型再微调的思路,并引发关于仿真与真机数据关系的讨论,认为两者在环境多样性与任务多样性上可互补。

01:58:48

讨论世界模型的评测维度与提升方向。贾萧松指出从策略有效性角度评估世界模型极为困难,存在“鸡生蛋”问题。王啸峰强调工业界更关注落地价值,如合成数据对真机泛化的提升、人工评测仿真匹配度等。廖康提出应关注3D/4D一致性与时空记忆一致性。针对“合成数据价值”的质疑,王啸峰和王宇琪以语言模型的合成数据演进为例,论证了世界模型在获得一定能力后,可通过组合泛化创造新数据,实现自我提升。

02:13:57

分享世界模型在工业界的落地案例与学界研究建议。王啸峰介绍了在自动驾驶领域,世界模型作为数据引擎(生成Corner Case数据)和结合NeRF/3DGS的仿真器已有实际需求;机器人领域则呈现早期趋势。针对学界资源有限的问题,贾萧松建议探索物体级、物理属性明确的世界模型新表征;廖康提出可研究多智能体世界模型、构建更全面的评测基准;王啸峰认为可做训练免费的方法并将其工具化;王宇琪和杨佳智则鼓励进行高风险、探索性的基础研究,如更有效的表征或新架构。

02:28:54

回答直播间观众提问。问题涵盖世界模型中奖励函数的使用、实时推理可行性、DriveDreamer系列工作演进、3D感知世界模型路径、物理属性仿真以及符号世界模型等。嘉宾们结合各自专长进行了简要回应:杨佳智解释了通过奖励学习获取连续值的方法;王宇琪认为实时推理更可能以异步激活形式存在;王啸峰系统回顾了其团队从数据引擎、仿真器到策略生成器的发展脉络;廖康重申了长期趋向视频生成统一范式的观点;贾萧松将符号世界模型关联到智能体间的博弈与交互研究。

加入World Model 交流群

欢迎加入 World Model 交流群一起探讨!你也可以在群内 Ask Me(大佬们)关于 World Model 的 Anything,我们会收集所有的问题反馈给主持人和嘉宾,并在深度讨论中得到解答。

 

展开Show Notes
GaloisPlus
GaloisPlus
2026.5.21
想问下有整理的文字稿吗?谢谢!
青稞社区
:
有的,公众号可以看
concerto_0
concerto_0
2026.5.18
1:15:38 音质损坏真的影响听感 之后能不能修复一下
青稞社区
:
我看看这个怎么修复😅😅😅