近期多模态生成模型的进展解锁了逼真且指令对齐的图像生成能力,然而如GPT-4o-Image这样的领先系统仍属闭源且难以获取。为了普及这些能力,我们发布了ShareGPT-4o-Image。这是首个包含45K文本到图像(text-to-image)和46K文本与图像到图像(text-and-image-to-image)数据的数据集。所有这些数据均利用GPT-4o的图像生成能力合成而来,旨在蒸馏其先进的图像生成能力。
基于此数据集,我们开发了Janus-4o,这是一个多模态大语言模型,能够同时进行文本到图像以及文本与图像到图像的生成。Janus-4o不仅在文本到图像生成上较其前代模型Janus-Pro有显著提升,还首次支持了文本与图像到图像的生成。值得注意的是,它仅使用了91K个合成样本,并在配备8块A800 GPU的机器上进行了6小时的训练,就实现了从零开始(from scratch)进行文本与图像到图像生成,并取得了令人印象深刻的性能。
我们希望ShareGPT-4o-Image数据集和Janus-4o模型的发布,能够促进逼真、指令对齐的图像生成领域的开放研究。
此项研究推出了ShareGPT-4o-Image,这是一个大型数据集,旨在将GPT-4o先进的图像生成能力,包括文本到图像和图文到图像生成,转移到开源多模态模型中。研究人员利用此数据集开发了Janus-4o,这是一个能够执行这两种生成任务的多模态大型语言模型。Janus-4o在图像生成方面显著超越了其前身Janus-Pro,并在图文到图像生成任务中展现出令人印象深刻的性能,训练成本极低。发布ShareGPT-4o-Image和Janus-4o旨在促进开放研究,以实现逼真且符合指令的图像生成。
