从大语言模型到大模型
前几天Google刚刚发布了他们全新的多模态大模型Gemini,收到了业界的极大的关注,Google这次真是交出来一份不错的考卷。
- 在Google展示的视频中,Gemini能够根据根据用户在镜头前出示的图像几乎实时的给出回应,展现了非常高的多模态能力。比如用户徒手画的画,Gemini可以根据画作的演进进行解释,并且在快要完成的时候成功猜出了在画的是一只鸭子。Gemini还可以根据画面中的内容进行一些简单的推理,比如用户徒手画了一个地球,一个太阳和一个火星,Gemini不仅仅识别出了这三个星球,而且指出了和实际三个星球的位置是不一致的,展现了极高的多模态理解能力
- 尽管我们现在还无法亲自测试Gemini,但是根据海外的评测,在GPT4已经可以Cover的能力边界内,Gemini并没有很明显的超过GPT。但是在多模态领域,Gemini已经明显超过了之前GPT4体现出的能力范围,这是GPT4现在没法达到的
- GPT出现以后的模型,打破的都是语言的边界,比如我们现在不需要再按照NLP的任务场景来区分模型,也不需要再按照某种语言来区分模型,所以他们是打破语言边界的大语言模型。现在的Gemini,可能是第一个原生多模态的大模型,他不仅仅打破了语言内部的边界,可能也把语言、视觉和听觉这些的多模态的边界打破了,不知道能不能算是第一个打破了多种信息边界的大模型
这次Google发布的Gemini时间点上非常好,正好处于OpenAI内乱,AI产品的空档期。而且体现出的模型水平还是挺高的,这次发布的技术报告,光作者就列了9页多,一共800多个作者,也算是前无古人了,足以看出Google的重视。
这次Gemini的发布体现了Google作为老牌互联网公司的技术实力,未来大模型的技术竞争肯定还会越来越激烈,明年模型的水平应该还会有很大的进步空间,这对于我们从事AI应用开发的人来说无疑是个最好的消息
