

- OpenAI是怎么搞RAG的?
OpenAI是怎么搞RAG的 - 前一阵子,OpenAI在他们的demo day,分享了他们在RAG场景下的一些经验,其中的很多点还是很有意思的。 - OpenAI的第一个重要的实践就是问题路由和文档的分类。因为不同的问题所需要的信息可能是有比较大的差别的,有的问题需要对文档进行总结或者解读,有的需要查询结构化的数据,所以他们就先通过问题的意图判断,把它分成了需要查询结构化数据的text to SQL和需要查询非结构化数据的语义向量查询,这样召回内容的准确性就大大提高了。另外他们还把文档进行了分类,不同文档他们使用了不同优化的prompt,来提升语言模型的输出结果 - 他们另外一个重要的实践就是问题增强。他们使用了HyDE和查询扩展两种方式来增强用户的问题。这些方法能把用户的问题从不同角度生成多个查询。对于每个查询,它都会检索一组相关文档,然后获取所有查询的唯一并集。这种方法就大大提升了召回知识的覆盖度 - 这个分享最有意思的就是OpenAI分享了他们是怎么从45%左右的准确率,一步步优化到接近98%准确率的过程,其中有一些策略他们觉得是比较有效的,另外一些策略至少在他们的场景里,效果是很不明显的。就比如他们觉得reranking和问题增强都是比较有效能够增强准确率的方法。 - 在OpenAI现在的角度来看,RAG是不存在银弹的,也没有放之四海而皆准的法则,每个场景下都值得用这些策略去不断地尝试,看哪些策略是比较适合自己的。简单来说,现在的RAG就是用各种策略不断地进行缝缝补补,尝试找到场景下的最优解 - 如果大家对这次分享的细节比较感兴趣,可以去youtube的OpenAI官方账户去看他们的demo day的视频,或者去langchain的官方blog去看文字的总结 OpenAI是怎么搞RAG的 - 前一阵子,OpenAI在他们的demo day,分享了他们在RAG场景下的一些经验,其中的很多点还是很有意思的。 - OpenAI的第一个重要的实践就是问题路由和文档的分类。因为不同的问题所需要的信息可能是有比较大的差别的,有的问题需要对文档进行总结或者解读,有的需要查询结构化的数据,所以他们就先通过问题的意图判断,把它分成了需要查询结构化数据的text to SQL和需要查询非结构化数据的语义向量查询,这样召回内容的准确性就大大提高了。另外他们还把文档进行了分类,不同文档他们使用了不同优化的prompt,来提升语言模型的输出结果 - 他们另外一个重要的实践就是问题增强。他们使用了HyDE和查询扩展两种方式来增强用户的问题。这些方法能把用户的问题从不同角度生成多个查询。对于每个查询,它都会检索一组相关文档,然后获取所有查询的唯一并集。这种方法就大大提升了召回知识的覆盖度 - 这个分享最有意思的就是OpenAI分享了他们是怎么从45%左右的准确率,一步步优化到接近98%准确率的过程,其中有一些策略他们觉得是比较有效的,另外一些策略至少在他们的场景里,效果是很不明显的。就比如他们觉得reranking和问题增强都是比较有效能够增强准确率的方法。 - 在OpenAI现在的角度来看,RAG是不存在银弹的,也没有放之四海而皆准的法则,每个场景下都值得用这些策略去不断地尝试,看哪些策略是比较适合自己的。简单来说,现在的RAG就是用各种策略不断地进行缝缝补补,尝试找到场景下的最优解 - 如果大家对这次分享的细节比较感兴趣,可以去youtube的OpenAI官方账户去看他们的demo day的视频,或者去langchain的官方blog去看文字的总结
- 百川智能发布企业知识库产品
百川智能发布企业知识库产品 就在今天,百川刚刚发布了他们的Baichuan2-tuobo的API,新的API不仅仅支持了192K的超长Token,还增加了对企业知识库的支持。这无疑大大降低了企业客户应用AI技术的门槛,今天就让我们看看百川是怎么做的 百川在检索增强知识库的产品中,应用了诸多的技术来提升最后的结果。百川参考了Meta的CoVe技术,将用户的复杂问题拆分成多个独立的子问题,从而让大模型可以针对每个子问题进行定向的知识库搜索,提供更加准确和详尽的答案。同时百川还通过自研的TSF技术,让模型更深入思考,可以推断出用户输入背后深层的问题,更精准的理解用户的意图,进而引导模型回答出更有价值的答案,为用户提供全面和满意的输出结果。在控制模型的幻觉上,百川还应用了Self-Critique的大模型自省技术,这个技术和我们之前提到过的Self-RAG的思路很类似,能够让大模型对检索回来的内容从相关性、可用性等角度进行自省,筛选出最优质和匹配的内容,有效提升召回内容的知识密度和广度,降低检索结果中的噪声。 从测试结果来看,从向量检索角度来看,百川通过稀疏检索与向量检索并行的混合检索方式,将目标文档的召回率提升到了 95%,大幅领先于市面上绝大多数开源向量模型的80%召回率。而在著名的长文本测试,“大海捞针”中,对于192k token以内的请求,百川都可以实现100%回答精度。即便夸张到5000万tokens的长度,也可以做到95%的正确率,可谓是十分的惊人。百川的检索增强知识库,在对比GPT4+langchain或者GPT+llamaindex的方案中,也有明显的争取率优势 百川在今年这些大模型公司当中,可谓是产品发布节奏最好的公司了,每次都能在最恰当的时间节点提供市场最需要的能力。这次发布的长Token的API和企业的知识库,又大大的降低了AI应用的开发门槛,如果您也在开发AI的企业应用,赶紧去百川官网试起来吧
- 别低估Prompt的上限
别低估Prompt的上限 - 记得ChatGPT刚发布的时候,大家都惊呼,觉得未来的工程师都可以不用编程语言了,以后直接写Prompt就可以完成工作了。但是后来我们又很快发现,只写Prompt好像也没那么神,只靠Prompt解决问题既不稳定也不可靠,其实不是Prompt is all your need,而是Prompt is all you have 。那么Prompt的上限到底有多高呢 - 微软前几天发布了一篇文章,标题是The Power of Prompting,讲的是他们在医疗领域,只使用Prompt就让GPT-4的准确率首次超过90%,超越了一众微调方法加持的大模型。而且他们还发现这种方法是通用的,不仅适用于医学,还可以推广到电气工程、机器学习、法律等专业中。看来是出色的提示策略可以甩微调一大截,看来不是Prompt不行,可能是我们写的Prompt不大行 - 另外从很早的时候,大家就发现了,可以通过暗示大模型,说他是一个行业专家,它的输出结果非常重要,来让大模型的输出更有质量。还有在大模型做逻辑推理的时候,让它先做个深呼吸,也似乎可以提升推理的准确度。最近人们又发现,暗示它的方式还有很多,比如有人就发现,对大模型装可怜也能让它表现更好,或者你使用比较强烈的语气,比如直接用脏话,也能让模型输出质量更高。更扯的是最近还有人告诉模型,要给他小费,发现承诺给20美刀小费,可以提升6%的水平,如果承诺给200美刀,几乎可以提升11%的水平,只不过不知道大模型一直收不到这笔钱,会不会以后对画饼就免疫了 - 从最早的结构化Prompt,到后来类似PromptScript这样的Prompt DSL,从最早的让AI扮演专家,再到给小费,Prompt作为现在大模型应用很重要的手段,看来还有很多可以探索的方向,如果把它比作一种编程语言的话,我觉得可能也就是相当于1980年的编程语言的发展水平,未来还有很多可以探索的领域
- 从大语言模型到大模型
从大语言模型到大模型 前几天Google刚刚发布了他们全新的多模态大模型Gemini,收到了业界的极大的关注,Google这次真是交出来一份不错的考卷。 - 在Google展示的视频中,Gemini能够根据根据用户在镜头前出示的图像几乎实时的给出回应,展现了非常高的多模态能力。比如用户徒手画的画,Gemini可以根据画作的演进进行解释,并且在快要完成的时候成功猜出了在画的是一只鸭子。Gemini还可以根据画面中的内容进行一些简单的推理,比如用户徒手画了一个地球,一个太阳和一个火星,Gemini不仅仅识别出了这三个星球,而且指出了和实际三个星球的位置是不一致的,展现了极高的多模态理解能力 - 尽管我们现在还无法亲自测试Gemini,但是根据海外的评测,在GPT4已经可以Cover的能力边界内,Gemini并没有很明显的超过GPT。但是在多模态领域,Gemini已经明显超过了之前GPT4体现出的能力范围,这是GPT4现在没法达到的 - GPT出现以后的模型,打破的都是语言的边界,比如我们现在不需要再按照NLP的任务场景来区分模型,也不需要再按照某种语言来区分模型,所以他们是打破语言边界的大语言模型。现在的Gemini,可能是第一个原生多模态的大模型,他不仅仅打破了语言内部的边界,可能也把语言、视觉和听觉这些的多模态的边界打破了,不知道能不能算是第一个打破了多种信息边界的大模型 这次Google发布的Gemini时间点上非常好,正好处于OpenAI内乱,AI产品的空档期。而且体现出的模型水平还是挺高的,这次发布的技术报告,光作者就列了9页多,一共800多个作者,也算是前无古人了,足以看出Google的重视。 这次Gemini的发布体现了Google作为老牌互联网公司的技术实力,未来大模型的技术竞争肯定还会越来越激烈,明年模型的水平应该还会有很大的进步空间,这对于我们从事AI应用开发的人来说无疑是个最好的消息
- AI toB产品设计的两个边界
AI toB产品设计的两个边界 随着现在出现了越来越多的基于AI的产品,经常会有人讨论说,未来基于AI的toB产品的设计和传统的toB设计会有什么区别么?那在我看来呢,基于AI的产品设计有两个很重要的边界,是产品需要定义好的 第一个边界就是大语言模型和工程部分的边界。现在的大模型对于语言理解、生成文章或者简单的逻辑判断的能力都很强,但是也存在很严重的幻觉,没有办法保障生成内容的稳定性和准确性。在很多toB的场景中,用户还是对生成内容的稳定性有较高的要求的,那这部分最好还是用传统的工程方式,用规则的方式去实现,这就存在一个大模型和工程部分的边界问题。而且大语言模型也不是擅长所有的问题,例如计算或者传统小模型擅长的确定性的算法,也是最好交给工程部分去实现 第二个边界是业务上的边界,也就是产品设计中机器和人的边界。现在AI的能力已经越来越强了,但是是不是现在AI就可以完全代替人了呢?显然还远远不行,AI还有很多能力不足够的地方,这还是需要人在业务场景中起到重要的作用。比如说一个简单的营销文案的生成场景,如果AI的能力是不足够完成端到端的任务的,中间完全可以由人来提供文案的背景,由AI去生成初稿,人来提建议,AI来修改,最后人再来审核。在这种场景中,AI和人可能要以不同的方式做很多次交互,怎么设计人和机器的边界,也是我们需要思考的 随着大模型能力的不断演进,我相信未来AI toB产品的两个边界也会不断动态的调整,模型逐渐能够肩负起越来越重要的职责,但是在当下,我们设计AI toB产品还是要仔细考虑产品中的两个边界应该要如何的设定
- 更长Token的大模型会取代RAG么?
更长Token的大模型会取代RAG么? 最近各个大模型的token长度是越来越长了,其中月之暗面的KimiChat首先以192k的超长的token引发了大家对他们的关注。前几天我参加了月之暗面的线上分享会,其中他们有一些观点还是挺有意思的,在这里可以给大家分享一下 KimiChat最引人注意的就是他们Token的长度,他们现在达到了一次性可以录入20万字的能力。应该说这个能力是非常强的,基本可以一次性的录入一篇中篇的小说。这就给大模型的应用带来了更多的可能性,一些比较复杂的业务或者知识也可以提供给大模型进行处理。以前一些需要阅读完整文章才能够回答的问题,现在也更容易解决了。 据KimiChat的人介绍,他们现在的重点工作主要是两项:降低token成本和提升指令跟踪能力。 随着大模型token的增长,每token的成本也在升高,而且客户输入的平均token长度也在变长,这就造成了大模型单次调用成本越来越高。如果成本太高,那么这肯定会制约应用的场景。现在Kimichat希望可以把模型的token成本降低到和16k的模型差不多的水平 另外一个就是提升指令跟踪能力。能接受20万字的输入,不代表可以很好的理解,并且按照这20万字的指令去执行。现在这么长的token,实际上我们是可以输入相当复杂的prompt,去指定模型做很复杂的事情的。KimiChat认为token长度和指令跟踪能力是一个相辅相成的事情,如果指令跟踪能力没有提升,或者匹配不上token的长度。那么单纯的提升token的长度其实收益就很小了 很多人都很关心token长度的增加对于RAG应用的影响,KimiChat的人认为模型token变长实际上也代替不了RAG应用的价值。他们举了个例子,模型变长可以类比成CPU变得越来越快,内存变得越来越大,这对PC上运行的应用当然是有好处的,但是本身并不能直接替代应用。更长的token可以让RAG更容易开发,但是解决不了其中多文档的问答等一系列的工程问题,这和我们的判断是基本一致的 另外还有个有意思的事情,在答疑环节有个人问,相对于其他的大模型,月之暗面有什么差异化的优势嘛?他们的研发同学的回答是,除了尽力跑的更快以外,我们没有什么其他的优势。看来,国内的大模型同质化还是比较明显的,至少在最近的一段时间,大家都只能越来越卷
- 大模型能考上公务员么?
大模型能考上公务员么? - 之前各种维度测试大模型能力的排行榜已经有很多了,其中已经有一些数据评测是基于真实的人类考题来测试大模型的能力的,比如gaokao和GSM8K。那我今天正好看到有人使用公务员的行测考试题目来对现在主流的国内大模型做了一遍测试。如果大模型也来参加行测考试的话,他能够考得上公务员嘛? - 这次进行测试的考题是一套行测的模拟题,包括了常识判断、语言理解与表达、数量关系和判断推理,四个类型一共99道题,基本能够代表行测当中主要的题目类型 - 参加比赛的大模型是国内的主流的12家大模型,既有文心一言和豆包这样的大厂的,也包括了Minimax这些独立的大模型公司,基本能够代表国内的大模型的最高水准了。 - 从比赛结果来看其中有些大模型表现的非常不错,远超出我们的预期,也有些模型感觉发挥的不大好,还没有找到公考的感觉,感觉想上岸不大容易啊。其中得分在70分以上的模型有4家。其中月之暗面的KimiChat以75分的好成绩拿下了第一名,百度的文心一言以74分屈居第二,第三名是Minimax的应事,得到了71分,第四名是70分的字节豆包 - 看起来如果你让大模型现在就参加行测考试,其中顶尖的选手也能考出不输给人类的成绩,不知道人类的考试会不会觉得压力更大了 - 值得一提的是,后来也用Open AI的ChatGPT 4版本做了一个测试,GPT4得到了73分的好成绩,仅次于KimiChat,体现了自己不俗的公务员潜力,看来这外国和尚也能念中国经 - 当然,这个测试算不上严谨,也不能完全代表国内这些大模型真正的能力,只是提供给大家一个参考。我们希望的肯定也不仅仅是大模型能够在考试中考出好的成绩,而是希望未来AI可以直接在越来越多的工作上替代我们去完成
- 如何对RAG进行评估?
如何对RAG进行评估 - 大家知道现在的AI产品很多都是做的对话或者生成类型的任务,这些场景不像传统的场景一样比较好进行测试和迭代。再加上因为大模型本身的原理问题,AI产品在输出的稳定性上也没有那么可靠。所以我们觉得在AI产品开发之前,针对场景事先建立评估的标准和体系是特别重要的一件事,就好像我们以前有TDD,测试驱动开发一样。我们现在在AI产品开发上,提出了EDD,就是评估驱动开发。就是先建立评估的标准,然后根据评估的结果对模型和策略进行不断地调整和优化 - 那么现在大家做的比较多的场景里,RAG的质量评估是比较困难的。那我今天就介绍一个RAG的开源评估框架,RAGAS - RAGAS在评估的时候,假定的是一个比较典型的给定一段上下文,模型针对问题生成答案。他评估的方式主要是使用大模型或者embedding的方式,去判断上下文、问题和答案之间的相关度。他主要关注结果的三个方面 - faithfulness,忠实性,也就是答案是不是基于给定的上下文生成的 - answer relevancy,答案相关度,答案是不是能够回答的了问题 - Context relevancy,上下文相关度,上下文是不是只给出了和问题相关的信息,噪声多不多 - 那么RAGAS认为这三点基本就可以很好的代表一个RAG产品的能力 - 那经过我们的测试,我们觉得RAGAS总的来说还是不错的。我们在对RAG的评估中,他的结果和人类的偏好是比较一致的,而且评估的结果也比较稳定。对于不同的模型或者策略来说,也有一定的区分度,能够帮助我们评价结果的质量 - 如果您现在也在做RAG类型的产品,我建议您也应该尽快找到适合场景的评估框架,以评估来驱动产品的策略优化
- OpenAI 更新对toB开发者意味着什么
OpenAI 更新对toB开发者意味着什么 昨天晚上OpenAI举行了第一次的开发者大会,那堪称是AI界的春晚,吸引了全球AI从业人员和科技爱好者的关注,让人不由得想起了10年前的苹果开发者大会,那这次开发者大会都讲了什么呢,我帮您大概整理下 对于普通的个人用户来说,OpenAI提供了自定义的GPT,你不用会写代码,也可以针对你的特定任务来做个ChatGPT。另外还有GPT Store,不仅可以丰富AI的应用场景,而且如果运营的好,还可以激发更多的创作者,甚至可能会产生一到两个未来的AI toC的重要公司 面向开发者的更新则是这次OpenAI的重头戏,他们一口气更新了一大堆对于应用开发很重要的能力,比如增加了多模态的API,比如现在可以让模型输出JSON格式,对模型的控制手段更强了。其中有几个功能我想重点聊一聊 其一是GPT4扩展Token长度到了128K,比原来的8k长度扩展了16倍,这和我们之前做出的,年底各家基础模型都会推出超长token版本的预测是一致的。这样toB很多场景,你的Prompt就可以容纳下更长的上下文、更多的业务知识、更多的参考资料,不仅应用的能力变强了,而且你的工程的难度也降低了 还有就是OpenAI推出了Assistant API,其中的Function Call和Retrieval的支持,让大家开发Agent的门槛更低了,可以更低成本的构建基于GPT4的应用,需要做的工程化的部分更少。可能有一些做的比较薄的RAG应用会受到影响,但是我觉得toB只要你深入进了企业的应用场景中,你就知道toB场景有大量的行业know how,这些都需要对行业或者场景的深入了解,所以我觉得对于真正现在能在企业落地的RAG产品是影响不大的 降价也是很重要的一点,新的API价格只有老版本的三分之一,更低的价格能让更多的场景能负担得起GPT4的版本,估计未来一段时间大家会看到GPT4的应用的井喷,这个对AI生态现阶段肯定是个好事 还有一点特别有意思,我在twitter上看到,OpenAI开始向企业提供微调的服务,只要你愿意花上至少两三百万美元,愿意等个几个月,你也可以拥有一个自己版本的GPT4级别的AI,这个对于未来的企业应用,也可能会造成很有趣的影响 这次发布会以后,我看很多人都在分析OpenAI更新的利和弊、喜和忧,讨论对AI开发者是不是一件坏事,其实我个人觉得目前完全没必要悲观。以现在的AI行业的成熟度,技术供给更强、更多、更便宜才能让应用开发百花齐放,才能让更多个人和企业接受AI带来的改变。即便是对LLM中间层有一些影响,在我看来也是短期的、暂时的,长期AI技术的发展对于使用者和开发者只能是好事。如果说唯一可能出现的坏消息,那也会是OpenAI的技术更新低于大家的预期,除了这个之外都谈不上对开发者来说不好。如果你的产品定位被OpenAI吞掉了,只能说明你需要跟上行业的变革,即时做方向上的调整
- ChatGLM 3发布了
10月27日智谱AI推出了全自研的第三代基座大模型ChatGLM3。据智谱介绍,这次推出的ChatGLM3采用了独创的多阶段增强预训练方法,训练数据更多样、训练步数更充分、训练策略更合理。在语义、数学、推理、代码、知识等不同的能力上全面超越了之前的版本。 在实际评测中,44个中英文公开数据集测试中,ChatGLM3在国内同尺寸模型中排名首位,甚至超过很多13B的模型等。在模型的很多能力上,已经追上了ChatGPT的3.5版本 从功能上来说,GLM3原生支持多模态、工具调用(Function Call)、代码执行以及Agent 任务。GLM3在多模态的能力上已经向ChatGPT去看齐。新增加的Function Call和Agent的能力对AI在企业的应用也是十分的重要,值得大家多去关注一下。 ChatGLM3还提供了32K的版本,最近百川也推出了192K的长Token版本,这些长Token的版本对未来AI应用的设计会降低很多难度,让以前一些需要大量工程能力去做的场景门槛更低,相信之后的大模型的Token 长度还会进一步的卷起来 值得一提的是ChatGLM3 这次还推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括Vivo、小米、三星在内的多种手机以及车载平台,甚至还能支持移动平台上使用 CPU 芯片的推理 ChatGLM作为国内顶尖的开源大模型,在企业应用中有着最多的使用者,这次新版本的发布,无疑又提升了AI在企业应用的效果。如果你现在正在用开源模型,赶紧部署起来试试效果吧 标题:ChatGLM 3发布了 10月27日智谱AI推出了全自研的第三代基座大模型ChatGLM3。据智谱介绍,这次推出的ChatGLM3采用了独创的多阶段增强预训练方法,训练数据更多样、训练步数更充分、训练策略更合理。在语义、数学、推理、代码、知识等不同的能力上全面超越了之前的版本。 在实际评测中,44个中英文公开数据集测试中,ChatGLM3在国内同尺寸模型中排名首位,甚至超过很多13B的模型等。在模型的很多能力上,已经追上了ChatGPT的3.5版本 从功能上来说,GLM3原生支持多模态、工具调用(Function Call)、代码执行以及Agent 任务。GLM3在多模态的能力上已经向ChatGPT去看齐。新增加的Function Call和Agent的能力对AI在企业的应用也是十分的重要,值得大家多去关注一下。 ChatGLM3还提供了32K的版本,最近百川也推出了192K的长Token版本,这些长Token的版本对未来AI应用的设计会降低很多难度,让以前一些需要大量工程能力去做的场景门槛更低,相信之后的大模型的Token 长度还会进一步的卷起来 值得一提的是ChatGLM3 这次还推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括Vivo、小米、三星在内的多种手机以及车载平台,甚至还能支持移动平台上使用 CPU 芯片的推理 ChatGLM作为国内顶尖的开源大模型,在企业应用中有着最多的使用者,这次新版本的发布,无疑又提升了AI在企业应用的效果。如果你现在正在用开源模型,赶紧部署起来试试效果吧
- RAG-Fusion是什么?
RAG-Fusion是最近新发布的一个RAG项目,这个项目的目标是为了增强现有RAG的检索能力,提升RAG场景中对问题的回复质量。 RAG-Fusion有两个特点 一个是问题增强,它会生成多个和原始问题类似的相关问题,提升检索的覆盖范围。举个例子,比如我想查询的是环境问题对我们的生活都会有什么影响,它可能就会帮你生成环境问题对我们的健康会有什么影响,环境问题对我们的经济会有什么,类似这样的相关问题。这样在向量搜索的时候,检索结果的覆盖面和多样性就更好了 另外一个是RAG-Fusion使用了RRF-倒数排序融合作为排序方法,相比普通排序,RRF更依赖于每个排序中的相对排名,更擅长组合来自不同策略的查询结果,比如使用BM25和Embedding做多路召回,RRF提供的重排质量确实要更好一点 当然,RAG-Fusion在使用上也是存在一些不足的 一个是问题的增强可能会带来过度的泛化,例如回答可能会偏离主旨,而且也容易给大模型带来更多的噪声,干扰生成结果 另外一个就是问题的增强增加了大模型的调用次数,也会推高生成的成本,生成的时间也会更长 大家知道,RAG生成效果其实是比较依赖于检索的质量的,所以检索的质量提升了,生成也会效果更好。最近类似RAG-Fusion的项目这样关注检索增强的,还有不少,比如Self-RAG,之后我也会给大家再介绍下我们在这些项目上的一些经验
- 一口气可以读完整本书的AI已经来了
一口气可以读完整本书的AI已经来了 10月9日,月之暗面发布了他们的Kimi chat模型, 能够支持一次性输入20万字左右的上下文。这就意味着几乎可以把一整本书直接发给大模型。我尝试给它发送了一篇比较长的投资研报,然后询问它文中的观点和数字,它可以很准确的给出答案。我还尝试上传了三体第一部的全文,大概有19万6000字,不过Kimi chat提示我超出了3%的长度,我不得不删除了大概有一章的内容。之后我让它总结了这本小说的完整内容,让它回答叶文洁在小说中的完整故事线,它都可以给出很好的回答,这是以前别的大模型很难完成的。现在我身边已经有之前使用GPT的朋友把Kimi Chat作为了自己主力使用的AI助手,说明产品的能力还是比较过关的。 在众多大模型公司里面,月之暗面一直是比较低调的一家,但是很多业内公司一直都很关注他们的产品。因为他们的CEO杨植麟经常被人称作是AI领域的天才,而且他们的团队的人才密度也是非常厉害的,这次的模型的token长度也确实让大家眼前一亮 当然,token长度长也不意味着能力就一定强,能接受很长的token和能理解很长的token也并不完全划等号,在之前的模型测试中,我们也经常发现随着token长度的增加,模型的推理能力其实是会有下降的,kimi chat的能力还需要我们进行测试验证 现在月之暗面已经在他的官网上开放了内测的申请,感兴趣的朋友快去试试吧
- 神奇的RAG,到底是什么?
能够把AI和企业知识结合起来的RAG究竟是什么呢 可能很多朋友最近都听说了RAG在一些企业场景中的落地应用,RAG实际上是Retrieval Augmented Generation的简称,简单来说,就是基于检索的增强生成。我们知道,现在大模型在企业应用中,有这么几个挑战。一个是大模型的世界知识是有限的,完全来自于模型预训练中提供的数据,企业本身的业务知识、产品知识大模型是不知道的,而通过微调等方式给大模型补充知识,成本高、可控性低,不适合大部分的场景。另外就是大模型一般都有幻觉的问题,也就是我们常说的胡说八道,在企业应用的场合里,很多是严肃的场景,对这个接受度是比较低的 那么RAG是怎么解决这个问题的呢,RAG方案中首先给大语言模型提供了一个外部的知识库,这个知识库可以是文档的集合,也可以是网站或者其他的结构化、非结构化的知识库。然后当用户提出问题的时候,通过Embedding、关键词查询等各种检索方式,从知识库中把相关的内容召回,通过优先级的重排之后,提供给大语言模型。大语言模型根据检索出来的知识和用户的问题,进行针对性的回答。这就好比给了大模型一个企业私域知识的字典,大模型可以根据用户的问题,一边查字典,一边根据字典中的说明进行回答。这个方式一方面提供了给大模型补充企业内部知识的途径,另外通过这些知识的约束,也可以大大降低大模型的幻觉问题。特别适合去做各种企业相关的问答产品,从给内部人员使用的AI业务助手,到给终端客户使用的AI客服或者AI营销等等 RAG现在已经成为了AI企业应用中最容易落地的一种方式,各种方案和产品层出不穷,但是要想真正做好RAG也是并不容易,例如怎样组织知识,怎样提高检索质量,都对RAG最后的效果至关重要,在之后的视频里,我们还会继续给大家介绍一些RAG相关的技巧和知识