斯坦福顶尖具身智能赛事Behavior Challenge 2025冠军方案详解Avo妙妙屋

斯坦福顶尖具身智能赛事Behavior Challenge 2025冠军方案详解

21分钟 ·
播放数35
·
评论数0

00:12 比赛介绍

00:58 比赛难点

02:50 模型整体架构

模型优化

  • 03:57 任务嵌入替代自然语言描述
  • 04:23 融合任务阶段与阶段信息
  • 06:22 动态适配动作专家对视觉语言特征
  • 07:51 设计增量动作空间 + 每时间步归一化

训练优化

  • 08:49 噪声基于动作时序与关节协同关系建模
  • 10:43 多样本 Flow Matching 单次跑vlm前向训练方式
  • 11:29 多任务训练与任务特化微调训练策略

推理优化

  • 12:46 长时程动作序列平滑机制
  • 15:47 通过cubic spline interpolation压缩动作提速
  • 17:55 在线跟踪与投票逻辑稳定任务
  • 20:12 针对常见失败模式的轻量级规则修正

论文指路:Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge