百川智能发布企业知识库产品
就在今天,百川刚刚发布了他们的Baichuan2-tuobo的API,新的API不仅仅支持了192K的超长Token,还增加了对企业知识库的支持。这无疑大大降低了企业客户应用AI技术的门槛,今天就让我们看看百川是怎么做的
百川在检索增强知识库的产品中,应用了诸多的技术来提升最后的结果。百川参考了Meta的CoVe技术,将用户的复杂问题拆分成多个独立的子问题,从而让大模型可以针对每个子问题进行定向的知识库搜索,提供更加准确和详尽的答案。同时百川还通过自研的TSF技术,让模型更深入思考,可以推断出用户输入背后深层的问题,更精准的理解用户的意图,进而引导模型回答出更有价值的答案,为用户提供全面和满意的输出结果。在控制模型的幻觉上,百川还应用了Self-Critique的大模型自省技术,这个技术和我们之前提到过的Self-RAG的思路很类似,能够让大模型对检索回来的内容从相关性、可用性等角度进行自省,筛选出最优质和匹配的内容,有效提升召回内容的知识密度和广度,降低检索结果中的噪声。
从测试结果来看,从向量检索角度来看,百川通过稀疏检索与向量检索并行的混合检索方式,将目标文档的召回率提升到了 95%,大幅领先于市面上绝大多数开源向量模型的80%召回率。而在著名的长文本测试,“大海捞针”中,对于192k token以内的请求,百川都可以实现100%回答精度。即便夸张到5000万tokens的长度,也可以做到95%的正确率,可谓是十分的惊人。百川的检索增强知识库,在对比GPT4+langchain或者GPT+llamaindex的方案中,也有明显的争取率优势
百川在今年这些大模型公司当中,可谓是产品发布节奏最好的公司了,每次都能在最恰当的时间节点提供市场最需要的能力。这次发布的长Token的API和企业的知识库,又大大的降低了AI应用的开发门槛,如果您也在开发AI的企业应用,赶紧去百川官网试起来吧
