7B小模型靠推理精准判定进度

这篇论文的核心是解决机器人操作的 “过程监督” 难题 —— 让 AI 能像 “裁判” 一样，精准判断机器人做任务的进度，还能发现操作失误，而不只是当个 “旁观者” 描述正在发生什么。

之前的视频大模型（MLLMs）有个大问题：它们只能被动观察，比如机器人切洋葱时，能描述 “机器人在动刀”，但没法判断切了多少、有没有切歪，甚至会把失败的操作（比如洋葱掉地上了）误判为快完成了，因为动作看着像。

研究者们搞了个叫PRIMO R1的 70 亿参数模型，专门解决这个问题，把 “旁观者” 变成了 “主动裁判”。它的核心思路很简单：

给模型 “划清边界”：输入不仅有机器人操作的视频，还必须包含 “初始状态图”（比如没切的洋葱 + 刀板）和 “当前状态图”（比如切了一半的洋葱），让模型清楚 “从哪开始” 和 “现在在哪”，不会搞混时间线。

逼模型 “一步步思考”：用强化学习（RL）鼓励模型输出 “思考过程”（比如 “第一步该拿洋葱，第二步切半，现在已经完成第二步，进度 50%”），而不是直接给个数字，这样判断更准，还能解释原因。

配专属 “训练 + 测试套餐”：建了 PRIMO 数据集（含 11.6 万条带思考过程的训练数据）和 PRIMO 基准测试，覆盖模拟环境和真实机器人场景，确保模型能举一反三。

这个模型厉害在哪？

举个例子：机器人叠短裤时，普通模型可能会说 “刚开始叠，进度 25%”，但 PRIMO R1 会先拆解步骤（1. 抓裤脚→2. 向上折→3. 抓裤腰→4. 向下折→5. 整理），再观察到 “已经完成前两步，裤腰还没折”，最后得出 “进度 50%”，逻辑特别清晰。

简单说，PRIMO R1 就像给机器人配了个 “专属裁判 + 教练”，既能实时判断任务做了多少，还能及时发现错误，帮机器人在复杂任务中少走弯路，推进了通用机器人的落地进度。