
4.Matrix-Game:交互式世界基础模型这篇文本介绍了Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。该模型通过大规模无标签预训练和动作标签训练的双阶段方法进行训练,并利用了一个名为Matrix-Game-MC的综合性Minecraft数据集。为了评估性能,研究人员开发了GameWorld Score,这是一个统一的基准测试,用于衡量视觉质量、时间质量、动作可控性和物理规则理解能力。Matrix-Game在所有评估指标上都超越了先前的Minecraft世界模型,并通过开源模型权重和基准测试促进了未来的研究。 我们推出 Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。Matrix-Game 采用两阶段流程进行训练:首先执行大规模无标签预训练以理解环境,随后进行带动作标签的训练以实现交互式视频生成。为支持这一工作,我们策划构建了 Matrix-Game-MC,这是一个全面的 Minecraft 数据集,包含超过 2,700 小时的无标签游戏视频片段和超过 1,000 小时的高质量带标签片段,这些标签包含键盘鼠标的细粒度动作标注。 我们的模型采用可控的图像生成世界范式(image-to-world generation),输入条件包括参考图像、运动上下文和用户动作。Matrix-Game 拥有超过 170 亿参数,能够精确控制角色动作和摄像机运动,同时保持高视觉质量和时序一致性。 为评估性能,我们开发了 GameWorld Score,一个用于衡量 Minecraft 世界生成中视觉质量、时序质量、动作可控性和物理规则理解能力的统一基准测试。大量实验表明,Matrix-Game 在所有指标上始终优于先前的开源 Minecraft 世界模型(包括 Oasis 和 MineWorld),尤其在可控性和物理一致性方面提升显著。双盲人工评估进一步证实了 Matrix-Game 的优越性,突显了其在多样化游戏场景中生成感知真实、精确可控视频的能力。 为促进未来关于交互式图像到世界生成的研究,我们将开源 Matrix-Game 模型权重和 GameWorld Score 基准测试: github.com。 https://arxiv.org/pdf/2506.18701
3.ShareGPT-4o-Image:让多模态模型与GPT-4o级图像生成能力对齐近期多模态生成模型的进展解锁了逼真且指令对齐的图像生成能力,然而如GPT-4o-Image这样的领先系统仍属闭源且难以获取。为了普及这些能力,我们发布了ShareGPT-4o-Image。这是首个包含45K文本到图像(text-to-image)和46K文本与图像到图像(text-and-image-to-image)数据的数据集。所有这些数据均利用GPT-4o的图像生成能力合成而来,旨在蒸馏其先进的图像生成能力。 基于此数据集,我们开发了Janus-4o,这是一个多模态大语言模型,能够同时进行文本到图像以及文本与图像到图像的生成。Janus-4o不仅在文本到图像生成上较其前代模型Janus-Pro有显著提升,还首次支持了文本与图像到图像的生成。值得注意的是,它仅使用了91K个合成样本,并在配备8块A800 GPU的机器上进行了6小时的训练,就实现了从零开始(from scratch)进行文本与图像到图像生成,并取得了令人印象深刻的性能。 我们希望ShareGPT-4o-Image数据集和Janus-4o模型的发布,能够促进逼真、指令对齐的图像生成领域的开放研究。 此项研究推出了ShareGPT-4o-Image,这是一个大型数据集,旨在将GPT-4o先进的图像生成能力,包括文本到图像和图文到图像生成,转移到开源多模态模型中。研究人员利用此数据集开发了Janus-4o,这是一个能够执行这两种生成任务的多模态大型语言模型。Janus-4o在图像生成方面显著超越了其前身Janus-Pro,并在图文到图像生成任务中展现出令人印象深刻的性能,训练成本极低。发布ShareGPT-4o-Image和Janus-4o旨在促进开放研究,以实现逼真且符合指令的图像生成。 https://arxiv.org/pdf/2506.18095
2.MMSearch-R1:激励大型多模态模型实现按需搜索这篇研究介绍了 MMSearch-R1,一个基于强化学习的框架,旨在让大型多模态模型 (LMMs) 能够根据需求在真实的互联网环境中进行搜索。该框架允许模型识别其知识边界,并选择性地利用图像和文本搜索工具,以解决超出其预训练知识范围的复杂视觉问答 (VQA) 任务。通过惩罚不必要的搜索并平衡训练数据,MMSearch-R1 不仅在准确性上超越了相同大小的检索增强生成 (RAG) 基线模型,还能显著减少搜索调用次数,同时保持甚至提升了其利用内部知识和生成有效查询的能力,最终实现了更高效、更智能的信息检索行为。 面向真实场景的大型多模态模型(LMMs)稳健部署需接入外部知识源,这源于现实世界信息的复杂性与动态性。现有方法(如检索增强生成RAG和基于提示工程的搜索智能体)依赖刚性流程,常导致低效或过度搜索行为。我们提出MMSearch-R1——首个端到端强化学习框架,使LMMs能在真实互联网环境中执行按需多轮搜索。该框架集成图像与文本搜索工具,通过基于结果的奖励机制与搜索惩罚引导模型决策何时及如何调用工具。 为支持训练,我们通过半自动化流程构建多模态搜索视觉问答数据集,覆盖多样化的视觉与文本知识需求,并筛选包含需搜索/免搜索样本的搜索平衡子集(这对塑造高效按需搜索行为至关重要)。在知识密集型与信息检索型VQA任务上的实验表明: 1. 性能优势:相同模型规模下显著超越RAG基线 2. 效率突破:匹配更大规模RAG模型性能的同时,降低30%以上搜索调用量 3. 行为优化:学习精准判断知识边界,避免无效搜索 我们进一步分析关键实证发现,为多模态搜索研究提供可落地的技术洞见。 https://arxiv.org/pdf/2506.20670
1.从跨领域视角重审强化学习在大型语言模型推理中的应用本研究介绍了一种名为 GURU 的综合性强化学习 (RL) 数据集,该数据集包含 9.2 万个可验证示例,涵盖数学、代码、科学、逻辑、模拟和表格六个不同的推理领域。论文指出,目前大多数关于大型语言模型 (LLM) 推理的 RL 研究都局限于数学和代码领域,这限制了对 RL 更广泛适用性的理解。通过 GURU,作者系统地重新审视了 RL 在 LLM 推理中的既有发现,并观察到 RL 的效果在不同领域之间存在显著差异,例如,RL 在预训练中频繁出现的领域(如数学、代码、科学)中主要激发现有知识,而在预训练中接触较少的领域(如逻辑、模拟、表格)中则更有可能促进真正的技能习得。基于此,研究团队开发了 GURU-7B 和 GURU-32B 两个模型,它们在开放模型中取得了最先进的性能,并在 17 项任务的评估套件中超越了现有基线。研究成果及其发布的数据集和代码旨在促进通用推理研究的发展。 《Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective》 https://arxiv.org/pdf/2506.14965