3.ShareGPT-4o-Image：让多模态模型与GPT-4o级图像生成能力对齐​

近期多模态生成模型的进展解锁了逼真且指令对齐的图像生成能力，然而如GPT-4o-Image这样的领先系统仍属闭源且难以获取。为了普及这些能力，我们发布了ShareGPT-4o-Image。这是首个包含45K文本到图像（text-to-image）和46K文本与图像到图像（text-and-image-to-image）数据的数据集。所有这些数据均利用GPT-4o的图像生成能力合成而来，旨在蒸馏其先进的图像生成能力。

基于此数据集，我们开发了Janus-4o，这是一个多模态大语言模型，能够同时进行文本到图像以及文本与图像到图像的生成。Janus-4o不仅在文本到图像生成上较其前代模型Janus-Pro有显著提升，还首次支持了文本与图像到图像的生成。值得注意的是，它仅使用了91K个合成样本，并在配备8块A800 GPU的机器上进行了6小时的训练，就实现了从零开始（from scratch）进行文本与图像到图像生成，并取得了令人印象深刻的性能。

我们希望ShareGPT-4o-Image数据集和Janus-4o模型的发布，能够促进逼真、指令对齐的图像生成领域的开放研究。

此项研究推出了ShareGPT-4o-Image，这是一个大型数据集，旨在将GPT-4o先进的图像生成能力，包括文本到图像和图文到图像生成，转移到开源多模态模型中。研究人员利用此数据集开发了Janus-4o，这是一个能够执行这两种生成任务的多模态大型语言模型。Janus-4o在图像生成方面显著超越了其前身Janus-Pro，并在图文到图像生成任务中展现出令人印象深刻的性能，训练成本极低。发布ShareGPT-4o-Image和Janus-4o旨在促进开放研究，以实现逼真且符合指令的图像生成。

arxiv.org