DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification
一句话核心结论
DeltaRubric 让同一个多模态大模型,自己制定评价清单再逐条核验,显著提升奖励模型的可靠性,大幅优于传统方法。
它到底研究了啥
多模态大模型对齐需要可靠奖励模型;传统方法靠单步打分、容易偷懒、过度依赖语言先、忽略视觉细节。本文提出 DeltaRubric,把评价拆成「制定清单 + 逐条核验」两步,让模型自己规划、自己验证。
研究场景
多模态偏好评价、奖励建模。
测试对象
Qwen3‑VL 4B、8B 指令模型。
怎么做
分歧规划器:生成中立、针对样本的核验清单;
清单核验器:对照图像逐条检查、给出可解释判断;
联合优化:用强化学习一起优化规划和验证能力。
效果
在 VL‑RewardBench 上:
Qwen3‑VL 4B:+22.6 个百分点
Qwen3‑VL 8B:+18.8 个百分点
结构化分步评价,更可靠、泛化更好。
最后结论
把评价拆成「规划 + 核验」,能做出更可信、可落地的多模态奖励模型,有效解决偷懒打分、忽视视觉细节的问题。
