从大语言模型到大模型

前几天Google刚刚发布了他们全新的多模态大模型Gemini，收到了业界的极大的关注，Google这次真是交出来一份不错的考卷。

- 在Google展示的视频中，Gemini能够根据根据用户在镜头前出示的图像几乎实时的给出回应，展现了非常高的多模态能力。比如用户徒手画的画，Gemini可以根据画作的演进进行解释，并且在快要完成的时候成功猜出了在画的是一只鸭子。Gemini还可以根据画面中的内容进行一些简单的推理，比如用户徒手画了一个地球，一个太阳和一个火星，Gemini不仅仅识别出了这三个星球，而且指出了和实际三个星球的位置是不一致的，展现了极高的多模态理解能力

- 尽管我们现在还无法亲自测试Gemini，但是根据海外的评测，在GPT4已经可以Cover的能力边界内，Gemini并没有很明显的超过GPT。但是在多模态领域，Gemini已经明显超过了之前GPT4体现出的能力范围，这是GPT4现在没法达到的

- GPT出现以后的模型，打破的都是语言的边界，比如我们现在不需要再按照NLP的任务场景来区分模型，也不需要再按照某种语言来区分模型，所以他们是打破语言边界的大语言模型。现在的Gemini，可能是第一个原生多模态的大模型，他不仅仅打破了语言内部的边界，可能也把语言、视觉和听觉这些的多模态的边界打破了，不知道能不能算是第一个打破了多种信息边界的大模型

这次Google发布的Gemini时间点上非常好，正好处于OpenAI内乱，AI产品的空档期。而且体现出的模型水平还是挺高的，这次发布的技术报告，光作者就列了9页多，一共800多个作者，也算是前无古人了，足以看出Google的重视。

这次Gemini的发布体现了Google作为老牌互联网公司的技术实力，未来大模型的技术竞争肯定还会越来越激烈，明年模型的水平应该还会有很大的进步空间，这对于我们从事AI应用开发的人来说无疑是个最好的消息