这篇文本介绍了Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。该模型通过大规模无标签预训练和动作标签训练的双阶段方法进行训练,并利用了一个名为Matrix-Game-MC的综合性Minecraft数据集。为了评估性能,研究人员开发了GameWorld Score,这是一个统一的基准测试,用于衡量视觉质量、时间质量、动作可控性和物理规则理解能力。Matrix-Game在所有评估指标上都超越了先前的Minecraft世界模型,并通过开源模型权重和基准测试促进了未来的研究。
我们推出 Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。Matrix-Game 采用两阶段流程进行训练:首先执行大规模无标签预训练以理解环境,随后进行带动作标签的训练以实现交互式视频生成。为支持这一工作,我们策划构建了 Matrix-Game-MC,这是一个全面的 Minecraft 数据集,包含超过 2,700 小时的无标签游戏视频片段和超过 1,000 小时的高质量带标签片段,这些标签包含键盘鼠标的细粒度动作标注。
我们的模型采用可控的图像生成世界范式(image-to-world generation),输入条件包括参考图像、运动上下文和用户动作。Matrix-Game 拥有超过 170 亿参数,能够精确控制角色动作和摄像机运动,同时保持高视觉质量和时序一致性。
为评估性能,我们开发了 GameWorld Score,一个用于衡量 Minecraft 世界生成中视觉质量、时序质量、动作可控性和物理规则理解能力的统一基准测试。大量实验表明,Matrix-Game 在所有指标上始终优于先前的开源 Minecraft 世界模型(包括 Oasis 和 MineWorld),尤其在可控性和物理一致性方面提升显著。双盲人工评估进一步证实了 Matrix-Game 的优越性,突显了其在多样化游戏场景中生成感知真实、精确可控视频的能力。
为促进未来关于交互式图像到世界生成的研究,我们将开源 Matrix-Game 模型权重和 GameWorld Score 基准测试: github.com。
