DeltaRubric治好AI看图瞎编

DeltaRubric治好AI看图瞎编

21分钟 ·
播放数1
·
评论数0

DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification

一句话核心结论

DeltaRubric 让同一个多模态大模型,自己制定评价清单再逐条核验,显著提升奖励模型的可靠性,大幅优于传统方法。

它到底研究了啥

多模态大模型对齐需要可靠奖励模型;传统方法靠单步打分、容易偷懒、过度依赖语言先、忽略视觉细节。本文提出 DeltaRubric,把评价拆成「制定清单 + 逐条核验」两步,让模型自己规划、自己验证。

研究场景

多模态偏好评价、奖励建模。

测试对象

Qwen3‑VL 4B、8B 指令模型。

怎么做

  1. 分歧规划器:生成中立、针对样本的核验清单;

  2. 清单核验器:对照图像逐条检查、给出可解释判断;

  3. 联合优化:用强化学习一起优化规划和验证能力。

效果

  • 在 VL‑RewardBench 上:

    • Qwen3‑VL 4B:+22.6 个百分点

    • Qwen3‑VL 8B:+18.8 个百分点

  • 结构化分步评价,更可靠、泛化更好。

最后结论

把评价拆成「规划 + 核验」,能做出更可信、可落地的多模态奖励模型,有效解决偷懒打分、忽视视觉细节的问题。