更长Token的大模型会取代RAG么?
最近各个大模型的token长度是越来越长了,其中月之暗面的KimiChat首先以192k的超长的token引发了大家对他们的关注。前几天我参加了月之暗面的线上分享会,其中他们有一些观点还是挺有意思的,在这里可以给大家分享一下
KimiChat最引人注意的就是他们Token的长度,他们现在达到了一次性可以录入20万字的能力。应该说这个能力是非常强的,基本可以一次性的录入一篇中篇的小说。这就给大模型的应用带来了更多的可能性,一些比较复杂的业务或者知识也可以提供给大模型进行处理。以前一些需要阅读完整文章才能够回答的问题,现在也更容易解决了。
据KimiChat的人介绍,他们现在的重点工作主要是两项:降低token成本和提升指令跟踪能力。
随着大模型token的增长,每token的成本也在升高,而且客户输入的平均token长度也在变长,这就造成了大模型单次调用成本越来越高。如果成本太高,那么这肯定会制约应用的场景。现在Kimichat希望可以把模型的token成本降低到和16k的模型差不多的水平
另外一个就是提升指令跟踪能力。能接受20万字的输入,不代表可以很好的理解,并且按照这20万字的指令去执行。现在这么长的token,实际上我们是可以输入相当复杂的prompt,去指定模型做很复杂的事情的。KimiChat认为token长度和指令跟踪能力是一个相辅相成的事情,如果指令跟踪能力没有提升,或者匹配不上token的长度。那么单纯的提升token的长度其实收益就很小了
很多人都很关心token长度的增加对于RAG应用的影响,KimiChat的人认为模型token变长实际上也代替不了RAG应用的价值。他们举了个例子,模型变长可以类比成CPU变得越来越快,内存变得越来越大,这对PC上运行的应用当然是有好处的,但是本身并不能直接替代应用。更长的token可以让RAG更容易开发,但是解决不了其中多文档的问答等一系列的工程问题,这和我们的判断是基本一致的
另外还有个有意思的事情,在答疑环节有个人问,相对于其他的大模型,月之暗面有什么差异化的优势嘛?他们的研发同学的回答是,除了尽力跑的更快以外,我们没有什么其他的优势。看来,国内的大模型同质化还是比较明显的,至少在最近的一段时间,大家都只能越来越卷