本文介绍了Molmo,这是一系列最先进的开放式视觉语言模型(VLM)。Molmo的独特之处在于其完全开放的权重和数据,不依赖于任何专有VLM生成的合成数据,从而为构建高性能VLM奠定了基础。
主要发现
- Molmo家族中最有效的模型MolmoE-1B,基于OLMoE-1B-7B混合专家语言模型,在学术基准测试和用户偏好方面几乎与GPT-4V的性能相匹配。
- 基于OLMo-7B-1024和Qwen2 7B的Molmo-7B-O和Molmo-7B-D模型,在学术基准测试和用户偏好方面均优于GPT-4V,并接近GPT-4o的性能。
- 性能最佳的Molmo-72B模型,基于Qwen2 72B,在学术基准测试中取得了最高分,并在用户偏好排名中位列第二,仅次于GPT-4o。
- 最佳模型的性能优于许多最先进的专有系统,包括Gemini 1.5 Pro、Flash和Claude 3.5 Sonnet。
重要性
Molmo的开放性对科学探索具有重要意义,因为它允许研究人员深入了解如何从头开始构建高性能VLM,而无需依赖专有模型或数据。
PixMo-Cap数据收集
“我们的关键创新是一个简单但有效的数据收集策略,它避免了这些问题:我们要求注释者在60到90秒内用语音描述图像,而不是要求他们写描述。我们提示注释者详细描述他们看到的一切,包括空间定位和关系的描述。根据经验,我们发现通过这种模态切换‘技巧’,注释者可以在更短的时间内提供更详细的描述,并且对于每个描述,我们都会收集音频收据(即注释者的录音),以证明没有使用VLM。”
未来方向
“这个新的指向数据使我们的模型能够通过指向支持答案的像素来更自然地回答一些问题,提高计数精度(模型通过指向计数),我们相信它将开辟一个重要的未来方向,即VLM使代理(例如机器人,网络代理)能够通过在其环境中指向来行动,例如,指向导航航点,要拾取的对象或要按下的用户界面按钮。”
结论
Molmo和PixMo代表了构建开放和高性能VLM的重要一步,为多模态研究和应用开辟了新的可能性。