DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification
一句话核心结论
DeltaRubric 让同一个多模态大模型，自己制定评价清单再逐条核验，显著提升奖励模型的可靠性，大幅优于传统方法。
它到底研究了啥
多模态大模型对齐需要可靠奖励模型；传统方法靠单步打分、容易偷懒、过度依赖语言先、忽略视觉细节。本文提出 DeltaRubric，把评价拆成「制定清单 + 逐条核验」两步，让模型自己规划、自己验证。
研究场景
多模态偏好评价、奖励建模。
测试对象
Qwen3‑VL 4B、8B 指令模型。
怎么做
1. 分歧规划器：生成中立、针对样本的核验清单；
2. 清单核验器：对照图像逐条检查、给出可解释判断；
3. 联合优化：用强化学习一起优化规划和验证能力。
效果
* 在 VL‑RewardBench 上：
  * Qwen3‑VL 4B：+22.6 个百分点
  * Qwen3‑VL 8B：+18.8 个百分点
* 结构化分步评价，更可靠、泛化更好。
最后结论
把评价拆成「规划 + 核验」，能做出更可信、可落地的多模态奖励模型，有效解决偷懒打分、忽视视觉细节的问题。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

大模型发展日新月异，但大量评测、以及技术相关论文内容专业、结构复杂、信息密集，想读懂一篇往往要花费数小时。为了降低理解门槛，我们用博客的形式拆解每一篇经典或前沿的大模型相关论文。
每篇内容控制在10分钟阅读量以内，围绕：
- 🧠 核心问题与研究动机
- 🛠️ 方法拆解与创新点
- 📊 实验设计与结果分析
- 🧭 结论反思与实践启发
适合评测同学、算法同学运营产品、以及对大模型感兴趣的学习者在碎片时间高效获取论文精华，轻松跟上大模型领域的最新进展。

AI_SUMMARIZE_EPISODE

听论文-懂大模型评测

DeltaRubric治好AI看图瞎编

689b02344cbd503733d7aa25/lrauTJ4NIYP8cFZ_QYyBMKgnE9e8.m4a