这段文字介绍了一个名为 BAGEL 的开源多模态基础模型，它能够理解和生成文本、图像和视频。该模型采用 MoT (Mixture-of-Transformers) 架构，并在大规模交错式多模态数据上进行预训练，这些数据整合了文本、图像、视频和网络信息。通过扩展训练数据规模，BAGEL 展现出复杂的推理能力和世界建模能力，在多模态理解和生成任务上显著优于现有开源模型。研究人员通过详细的实验和评估，展示了 BAGEL 在文本到图像生成、图像编辑以及需要复杂多模态推理的“智能编辑”任务中的优越性能，并强调了推理步骤对生成效果的积极影响。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

jwzhang的个人播客

BAGEL: Scalable Multimodal Foundation Model

682dbe5bc7c5f17595ceeced/lqAaiHgZxsYeA9HeYvP9GSGU9ikC.m4a