2.MMSearch-R1：激励大型多模态模型实现按需搜索

这篇研究介绍了 MMSearch-R1，一个基于强化学习的框架，旨在让大型多模态模型 (LMMs) 能够根据需求在真实的互联网环境中进行搜索。该框架允许模型识别其知识边界，并选择性地利用图像和文本搜索工具，以解决超出其预训练知识范围的复杂视觉问答 (VQA) 任务。通过惩罚不必要的搜索并平衡训练数据，MMSearch-R1 不仅在准确性上超越了相同大小的检索增强生成 (RAG) 基线模型，还能显著减少搜索调用次数，同时保持甚至提升了其利用内部知识和生成有效查询的能力，最终实现了更高效、更智能的信息检索行为。
面向真实场景的大型多模态模型（LMMs）稳健部署需接入外部知识源，这源于现实世界信息的复杂性与动态性。现有方法（如检索增强生成RAG和基于提示工程的搜索智能体）依赖刚性流程，常导致低效或过度搜索行为。我们提出MMSearch-R1——首个端到端强化学习框架，使LMMs能在真实互联网环境中执行按需多轮搜索。该框架集成图像与文本搜索工具，通过基于结果的奖励机制与搜索惩罚引导模型决策何时及如何调用工具。

为支持训练，我们通过半自动化流程构建多模态搜索视觉问答数据集，覆盖多样化的视觉与文本知识需求，并筛选包含需搜索/免搜索样本的搜索平衡子集（这对塑造高效按需搜索行为至关重要）。在知识密集型与信息检索型VQA任务上的实验表明：

性能优势：相同模型规模下显著超越RAG基线

效率突破：匹配更大规模RAG模型性能的同时，降低30%以上搜索调用量

行为优化：学习精准判断知识边界，避免无效搜索

我们进一步分析关键实证发现，为多模态搜索研究提供可落地的技术洞见。

arxiv.org