听播客,上小宇宙! 点击下载 F1模型如何让机器人应对移动目标 上海 AI Lab联合哈尔滨工业大学(深圳)提出一种融合视觉生成与决策的预训练模型F1 8分钟
· 8个月前 7
· 0
今天我们将深入解读一篇题为"F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions"的研究论文。这篇论文介绍了一种名为F1的预训练视觉语言动作(VLA)框架,它将目标条件视觉预见整合到感知-行动循环中,为机器人在动态环境中执行复杂任务提供了新的解决方案。 研究背景与挑战 在具身人工智能领域,让机器人在动态视觉环境中执行语言条件任务仍然是一个核心挑战。现有的视觉语言动作模型主要采用反应式的状态到动作映射,这往往导致在动态场景中的短视行为和较差的鲁棒性。 传统方法主要分为三类: 仅使用从观察到低级动作端到端训练的动作专家,缺乏语义基础和跨任务泛化能力 集成视觉语言模型(VLM)增强场景和指令理解,但缺乏时间演化建模,本质上仍是反应式的 基于视觉预测的策略尝试预测未来观察作为辅助信号,但缺乏VLM的语义理解,导致预测缺乏语义基础和脆弱的控制 F1模型架构 F1引入了一种新的VLA框架,将目标条件视觉预见整合到感知-行动循环中。它基于预测逆动力学原理,将控制重新表述为预见引导的逆动力学,使动作不仅从当前状态中推导,还从预期的视觉结果中推导。 三阶段训练方法 阶段I:通过将生成专家与继承自预训练MLLM的理解专家对齐,注入预见能力 阶段II:在大规模公共机器人数据集上预训练整个模型,学习通用共享的视觉运动知识 阶段III:在特定任务数据上进行后训练,使模型适应新的实体和细粒度操作技能 实验结果 F1在模拟基准和物理平台上进行了广泛实验,结果表明它始终超越反应式基线,在动态和长期任务中实现更高的成功率和更好的泛化能力。 在使用Genie机器人的9个真实世界任务上,F1在所有任务中表现出优越性能,平均抓取率为92.6%,平均成功率为82.2%。相比之下,表现最佳的基线仅达到78.5%的抓取率和65.2%的成功率。 结论与未来工作 F1引入了一种新的预训练视觉语言动作框架,通过整合目标条件视觉预见,显著提高了机器人在动态和长期任务中的性能。未来工作方向包括扩展到更多样化的实体和任务家族、用结构化世界模型或物理知情先验丰富预见生成模块等。