LLaVA-OneVision: 易于实现的视觉任务迁移

LLaVA-OneVision: 易于实现的视觉任务迁移

6分钟 ·
播放数0
·
评论数0

探讨 LLaVA-OneVision,一个开源的大型多模态模型家族,通过整合 LLaVA-NeXT 博客系列中的数据、模型和视觉表示方面的见解而开发。实验结果表明,LLaVA-OneVision 是首个能够同时推动开放 LMM 在单图像、多图像和视频场景中性能边界的单一模型。该设计允许跨不同模态/场景进行强大的迁移学习,从而产生新的新兴能力。