全模态大型语言模型(Omni-MLLMs)正快速发展,旨在实现对任意模态组合的统一理解和生成,超越特定模态的限制 。近期进展体现在处理模态种类的持续增加(从视觉、音频扩展到 3D、IMU 等,甚至多达八种) 和跨模态交互能力的增强,趋向于“任意到任意”(Any-to-Any)模型,包括跨模态生成能力 。应用场景也日益广泛,涵盖实时多模态交互、世界模拟、多传感器自动驾驶等 。代表性模型不仅有开源项目,也包括 GPT-4o、Gemini 和 Reka 等闭源模型 。
尽管进展显著,但仍面临挑战,如更多模态的有效扩展、训练效率、灾难性遗忘、低资源模态处理、长上下文、模态偏见、时间对齐以及跨模态数据和评测基准的完善等问题。

