论文：MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models

一句话核心结论

现在的全模态嵌入模型，根本做不好文本、图片、视频、音频跨模态统一表征，检索不准、有偏向、不听指令，离可靠通用嵌入差很远。

提出MMEB-V3基准，专门系统评测全模态嵌入模型在多模态统一语义空间里的表现，找出性能缺陷与根本问题。

全模态嵌入评估：把文本、图像、视频、音频映射到同一语义空间，做跨模态检索与语义匹配。

当前主流全模态嵌入模型（通用多模态表征模型）。

AI 有三个明显毛病：

不是调提示、加数据能解决，现在全模态嵌入底层就做不到稳定的模态感知与指令对齐，还不能当可靠的通用跨模态表征工具。