论文：V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization

一句话核心结论

现在的多模态大模型做表格视觉推理全是黑盒瞎猜，而 V-tableR1 用过程监督 + 评论器引导，把推理变成可验证步骤，开源模型里直接做到最强。

提出V-tableR1框架，用过程监督强化学习，让多模态大模型在表格视觉推理上做到严谨、可验证、不幻觉。

多模态表格推理：看图 + 表格做复杂计算、逻辑推导、数值答案。

主流多模态大模型（MLLMs），对比开源与闭源模型。

AI 老毛病：

靠结果监督不行，过程监督 + 评论器引导才是正道；V-tableR1 让表格多模态推理从 “蒙答案” 变成 “严谨推导”。