本期我们将探讨英伟达新发布的NVLM 1.0,这是一系列前沿类多模态大型语言模型(LLMs),在视觉-语言任务上达到了业界领先水平,与顶级的专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相媲美。
值得注意的是,NVLM 1.0在多模态训练后的文本性能上有所提高。在模型设计方面,我们在解码器仅多模态LLMs(例如LLaVA)和基于交叉注意力的模型(例如Flamingo)之间进行了全面比较,并基于两种方法的优缺点,提出了一种新的架构,旨在提高训练效率和多模态推理能力。此外,我们还引入了一种基于瓷砖的动态高分辨率图像设计,显著提升了在多模态推理和OCR相关任务上的表现。关于训练数据,我们精心策划并提供了多模态预训练和监督式微调数据集的详细信息。
我们的研究表明,数据集的质量和任务多样性比规模更重要,这一点在所有架构的预训练阶段都得到了体现。尤其值得注意的是,我们为NVLM-1.0模型开发了生产级多模态功能,使其在视觉-语言任务中表现卓越,同时保持甚至提升了与LLM基础架构相比的纯文本性能。为了实现这一目标,我们精心制作并整合了高质量的纯文本数据集进入多模态训练,同时加入了大量的多模态数学和编码数据,从而在各种模态中增强了数学和编码能力。为了推动该领域的研究,我们将发布模型权重,并为社区开源代码。

