论文:MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models
一句话核心结论
现在的全模态嵌入模型,根本做不好文本、图片、视频、音频跨模态统一表征,检索不准、有偏向、不听指令,离可靠通用嵌入差很远。
它到底研究了啥
提出MMEB-V3基准,专门系统评测全模态嵌入模型在多模态统一语义空间里的表现,找出性能缺陷与根本问题。
研究场景
全模态嵌入评估:把文本、图像、视频、音频映射到同一语义空间,做跨模态检索与语义匹配。
测试对象
当前主流全模态嵌入模型(通用多模态表征模型)。
怎么测的
搭建覆盖文、图、视频、音频的全面评测集
构建OmniSET细粒度语义等价测试集,拆分语义相似度与模态影响
测试跨模态检索、指令对齐、模态约束能力
测出来啥结果
模型经常找不到目标模态,检索跑偏
跨模态检索高度不对称,严重受查询模态偏向影响
指令引导要么没用,要么对齐错误,没法稳定提升效果
AI 有三个明显毛病:
抓不准指定模态,想搜图经常返回文 / 音 / 视频
跨模态查过去和查回来结果不一样,严重不对称
指令说要什么模态,模型根本不听,不会按约束检索
最后结论
不是调提示、加数据能解决,现在全模态嵌入底层就做不到稳定的模态感知与指令对齐,还不能当可靠的通用跨模态表征工具。
