大模型能考上公务员么?
- 之前各种维度测试大模型能力的排行榜已经有很多了,其中已经有一些数据评测是基于真实的人类考题来测试大模型的能力的,比如gaokao和GSM8K。那我今天正好看到有人使用公务员的行测考试题目来对现在主流的国内大模型做了一遍测试。如果大模型也来参加行测考试的话,他能够考得上公务员嘛?
- 这次进行测试的考题是一套行测的模拟题,包括了常识判断、语言理解与表达、数量关系和判断推理,四个类型一共99道题,基本能够代表行测当中主要的题目类型
- 参加比赛的大模型是国内的主流的12家大模型,既有文心一言和豆包这样的大厂的,也包括了Minimax这些独立的大模型公司,基本能够代表国内的大模型的最高水准了。
- 从比赛结果来看其中有些大模型表现的非常不错,远超出我们的预期,也有些模型感觉发挥的不大好,还没有找到公考的感觉,感觉想上岸不大容易啊。其中得分在70分以上的模型有4家。其中月之暗面的KimiChat以75分的好成绩拿下了第一名,百度的文心一言以74分屈居第二,第三名是Minimax的应事,得到了71分,第四名是70分的字节豆包
- 看起来如果你让大模型现在就参加行测考试,其中顶尖的选手也能考出不输给人类的成绩,不知道人类的考试会不会觉得压力更大了
- 值得一提的是,后来也用Open AI的ChatGPT 4版本做了一个测试,GPT4得到了73分的好成绩,仅次于KimiChat,体现了自己不俗的公务员潜力,看来这外国和尚也能念中国经
- 当然,这个测试算不上严谨,也不能完全代表国内这些大模型真正的能力,只是提供给大家一个参考。我们希望的肯定也不仅仅是大模型能够在考试中考出好的成绩,而是希望未来AI可以直接在越来越多的工作上替代我们去完成
