论文:V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization
一句话核心结论
现在的多模态大模型做表格视觉推理全是黑盒瞎猜,而 V-tableR1 用过程监督 + 评论器引导,把推理变成可验证步骤,开源模型里直接做到最强。
它到底研究了啥
提出V-tableR1框架,用过程监督强化学习,让多模态大模型在表格视觉推理上做到严谨、可验证、不幻觉。
研究场景
多模态表格推理:看图 + 表格做复杂计算、逻辑推导、数值答案。
测试对象
主流多模态大模型(MLLMs),对比开源与闭源模型。
怎么测的
用表格作为视觉推理测试床
训练专门评论器 VLM 给每一步推理反馈
用新算法PGPO做策略优化,惩罚幻觉与偷懒
在复杂表格基准上测准确率、抗幻觉、推理透明度
测出来啥结果
V-tableR1 4B 在开源模型里达到 SOTA
能打赢18 倍参数量的更大模型
明显压制视觉幻觉和捷径瞎猜
把黑盒匹配变成可验证逻辑推导
AI 老毛病:
只看结果不看过程,黑盒推理
靠表面模式匹配,不做严谨多步推导
视觉领域容易幻觉、瞎猜、逻辑不落地
最后结论
靠结果监督不行,过程监督 + 评论器引导才是正道;V-tableR1 让表格多模态推理从 “蒙答案” 变成 “严谨推导”。
