00:59 为什么 PointWorld 这么火?
- Zero-shot 世界模型
- 不需要任务微调、人工演示或 reward 设计
- 只需预训练世界模型 + MPC 即可控制机器人
02:13 模型输入
State Representation
- 静态环境点云
- 每个点包含 3D位置 + 特征向量
Action Representation
- 机器人动作序列
- 转化为机器人表面点的运动
05:58 模型预测
- 环境点云 + 机器人轨迹点云直接拼接
- 使用 backbone 学习交互关系
- 一次 forward 预测多个时间步的点位移
- 推理速度远快于 diffusion 世界模型
08:20 训练目标
损失函数主要包含四部分:

- Movement Weight:强调动态点
- 3D Residual:位移误差
- Uncertainty Weight:置信度加权
- Uncertainty Regularization:防止模型作弊
10:47 机器人控制
核心流程:
- 初始化轨迹
- 采样扰动轨迹
- 用 PointWorld 预测未来环境
- 计算任务代价和控制代价
- 更新最优轨迹
13:14 数据与3D重建流水线
3D重建流水线:
- 使用 Foundation Stereo 提升深度精度
- 优化相机外参(VGGT)
- 使用 CoTracker3 解决像素追踪与遮挡问题
16:11 总结
论文指路:PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
code:github.com

