多模态AI的全能假象

多模态AI的全能假象

18分钟 ·
播放数13
·
评论数0

论文:MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models

一句话核心结论

现在的全模态嵌入模型,根本做不好文本、图片、视频、音频跨模态统一表征,检索不准、有偏向、不听指令,离可靠通用嵌入差很远。


它到底研究了啥

提出MMEB-V3基准,专门系统评测全模态嵌入模型在多模态统一语义空间里的表现,找出性能缺陷与根本问题。


研究场景

全模态嵌入评估:把文本、图像、视频、音频映射到同一语义空间,做跨模态检索与语义匹配。


测试对象

当前主流全模态嵌入模型(通用多模态表征模型)。


怎么测的

  • 搭建覆盖文、图、视频、音频的全面评测集

  • 构建OmniSET细粒度语义等价测试集,拆分语义相似度与模态影响

  • 测试跨模态检索、指令对齐、模态约束能力


测出来啥结果

  1. 模型经常找不到目标模态,检索跑偏

  2. 跨模态检索高度不对称,严重受查询模态偏向影响

  3. 指令引导要么没用,要么对齐错误,没法稳定提升效果

AI 有三个明显毛病:

  • 抓不准指定模态,想搜图经常返回文 / 音 / 视频

  • 跨模态查过去和查回来结果不一样,严重不对称

  • 指令说要什么模态,模型根本不听,不会按约束检索


最后结论

不是调提示、加数据能解决,现在全模态嵌入底层就做不到稳定的模态感知与指令对齐,还不能当可靠的通用跨模态表征工具。