全模态大型语言模型（Omni-MLLMs）正快速发展，旨在实现对任意模态组合的统一理解和生成，超越特定模态的限制 。近期进展体现在处理模态种类的持续增加（从视觉、音频扩展到 3D、IMU 等，甚至多达八种） 和跨模态交互能力的增强，趋向于“任意到任意”（Any-to-Any）模型，包括跨模态生成能力 。应用场景也日益广泛，涵盖实时多模态交互、世界模拟、多传感器自动驾驶等 。代表性模型不仅有开源项目，也包括 GPT-4o、Gemini 和 Reka 等闭源模型 。
尽管进展显著，但仍面临挑战，如更多模态的有效扩展、训练效率、灾难性遗忘、低资源模态处理、长上下文、模态偏见、时间对齐以及跨模态数据和评测基准的完善等问题。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

白话聊最新的大语言模型技术进展

AI_SUMMARIZE_EPISODE

白话大模型

全模态大语言模型最新进展

68182a66de875fc550d26544/lmHfSyBGQSyK3l32bF28B2XS1V6j.m4a