7B小模型靠推理精准判定进度

7B小模型靠推理精准判定进度

19分钟 ·
播放数8
·
评论数0

From Passive Observer to Active Critic:Reinforcement Learning Elicits ProcessReasoning for Robotic Manipulation

这篇论文的核心是解决机器人操作的 “过程监督” 难题 —— 让 AI 能像 “裁判” 一样,精准判断机器人做任务的进度,还能发现操作失误,而不只是当个 “旁观者” 描述正在发生什么。

之前的视频大模型(MLLMs)有个大问题:它们只能被动观察,比如机器人切洋葱时,能描述 “机器人在动刀”,但没法判断切了多少、有没有切歪,甚至会把失败的操作(比如洋葱掉地上了)误判为快完成了,因为动作看着像。

研究者们搞了个叫PRIMO R1的 70 亿参数模型,专门解决这个问题,把 “旁观者” 变成了 “主动裁判”。它的核心思路很简单:

  1. 给模型 “划清边界”:输入不仅有机器人操作的视频,还必须包含 “初始状态图”(比如没切的洋葱 + 刀板)和 “当前状态图”(比如切了一半的洋葱),让模型清楚 “从哪开始” 和 “现在在哪”,不会搞混时间线。
  2. 逼模型 “一步步思考”:用强化学习(RL)鼓励模型输出 “思考过程”(比如 “第一步该拿洋葱,第二步切半,现在已经完成第二步,进度 50%”),而不是直接给个数字,这样判断更准,还能解释原因。
  3. 配专属 “训练 + 测试套餐”:建了 PRIMO 数据集(含 11.6 万条带思考过程的训练数据)和 PRIMO 基准测试,覆盖模拟环境和真实机器人场景,确保模型能举一反三。

这个模型厉害在哪?

  • 进度判断超准:平均误差只有 15.52,比 720 亿参数的大模型还强,把专业基线模型的误差减少了一半;
  • 能发现失误:在 RoboFail 基准测试中,识别操作失败的准确率达 67%,超过了 GPT-4o、OpenAI o1 这些闭源模型;
  • 适应性强:不管是模拟环境的简单任务,还是真实工厂里的人形机器人复杂操作,都能稳定发挥,不会 “水土不服”。

举个例子:机器人叠短裤时,普通模型可能会说 “刚开始叠,进度 25%”,但 PRIMO R1 会先拆解步骤(1. 抓裤脚→2. 向上折→3. 抓裤腰→4. 向下折→5. 整理),再观察到 “已经完成前两步,裤腰还没折”,最后得出 “进度 50%”,逻辑特别清晰。

简单说,PRIMO R1 就像给机器人配了个 “专属裁判 + 教练”,既能实时判断任务做了多少,还能及时发现错误,帮机器人在复杂任务中少走弯路,推进了通用机器人的落地进度。