Self-Rewarding VLM via Reasoning Decompositionreadthepapers

Self-Rewarding VLM via Reasoning Decomposition

25分钟 ·
播放数0
·
评论数0

本论文来自腾讯人工智能实验室,介绍了一种名为 Vision-SR1 的新方法,旨在提升视觉语言模型 (VLM) 的推理能力。Vision-SR1 通过将 VLM 的推理过程分解为视觉感知和语言推理两个阶段,并通过模型自身进行奖励评估来解决现有 VLM 的视觉幻觉和语言捷径问题。该方法在强化学习框架下运作,无需外部人工标注或预先提取的标签,从而解决了现有方法的扩展性和成本问题。实验结果表明,Vision-SR1 在多项视觉语言任务上显著提高了视觉推理能力,减少了模型对语言捷径的依赖。该研究还提出了语言捷径率 (LSR) 作为衡量模型对视觉理解的依赖程度的指标

Source: <arxiv.org>