F1模型如何让机器人应对移动目标上海 AI Lab联合哈尔滨工业大学（深圳）提出一种融合视觉生成与决策的预训练模型F1

8分钟 ·8个月前

7

·

0

今天我们将深入解读一篇题为"F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions"的研究论文。这篇论文介绍了一种名为F1的预训练视觉语言动作(VLA)框架，它将目标条件视觉预见整合到感知-行动循环中，为机器人在动态环境中执行复杂任务提供了新的解决方案。

研究背景与挑战
在具身人工智能领域，让机器人在动态视觉环境中执行语言条件任务仍然是一个核心挑战。现有的视觉语言动作模型主要采用反应式的状态到动作映射，这往往导致在动态场景中的短视行为和较差的鲁棒性。

传统方法主要分为三类：

仅使用从观察到低级动作端到端训练的动作专家，缺乏语义基础和跨任务泛化能力
集成视觉语言模型(VLM)增强场景和指令理解，但缺乏时间演化建模，本质上仍是反应式的
基于视觉预测的策略尝试预测未来观察作为辅助信号，但缺乏VLM的语义理解，导致预测缺乏语义基础和脆弱的控制
F1模型架构
F1引入了一种新的VLA框架，将目标条件视觉预见整合到感知-行动循环中。它基于预测逆动力学原理，将控制重新表述为预见引导的逆动力学，使动作不仅从当前状态中推导，还从预期的视觉结果中推导。

三阶段训练方法
阶段I：通过将生成专家与继承自预训练MLLM的理解专家对齐，注入预见能力
阶段II：在大规模公共机器人数据集上预训练整个模型，学习通用共享的视觉运动知识
阶段III：在特定任务数据上进行后训练，使模型适应新的实体和细粒度操作技能
实验结果
F1在模拟基准和物理平台上进行了广泛实验，结果表明它始终超越反应式基线，在动态和长期任务中实现更高的成功率和更好的泛化能力。

在使用Genie机器人的9个真实世界任务上，F1在所有任务中表现出优越性能，平均抓取率为92.6%，平均成功率为82.2%。相比之下，表现最佳的基线仅达到78.5%的抓取率和65.2%的成功率。

结论与未来工作
F1引入了一种新的预训练视觉语言动作框架，通过整合目标条件视觉预见，显著提高了机器人在动态和长期任务中的性能。未来工作方向包括扩展到更多样化的实体和任务家族、用结构化世界模型或物理知情先验丰富预见生成模块等。

在小宇宙打开