如何对RAG进行评估？

如何对RAG进行评估

- 大家知道现在的AI产品很多都是做的对话或者生成类型的任务，这些场景不像传统的场景一样比较好进行测试和迭代。再加上因为大模型本身的原理问题，AI产品在输出的稳定性上也没有那么可靠。所以我们觉得在AI产品开发之前，针对场景事先建立评估的标准和体系是特别重要的一件事，就好像我们以前有TDD，测试驱动开发一样。我们现在在AI产品开发上，提出了EDD，就是评估驱动开发。就是先建立评估的标准，然后根据评估的结果对模型和策略进行不断地调整和优化

- 那么现在大家做的比较多的场景里，RAG的质量评估是比较困难的。那我今天就介绍一个RAG的开源评估框架，RAGAS

- RAGAS在评估的时候，假定的是一个比较典型的给定一段上下文，模型针对问题生成答案。他评估的方式主要是使用大模型或者embedding的方式，去判断上下文、问题和答案之间的相关度。他主要关注结果的三个方面

- faithfulness，忠实性，也就是答案是不是基于给定的上下文生成的

- answer relevancy，答案相关度，答案是不是能够回答的了问题

- Context relevancy，上下文相关度，上下文是不是只给出了和问题相关的信息，噪声多不多

- 那么RAGAS认为这三点基本就可以很好的代表一个RAG产品的能力

- 那经过我们的测试，我们觉得RAGAS总的来说还是不错的。我们在对RAG的评估中，他的结果和人类的偏好是比较一致的，而且评估的结果也比较稳定。对于不同的模型或者策略来说，也有一定的区分度，能够帮助我们评价结果的质量

- 如果您现在也在做RAG类型的产品，我建议您也应该尽快找到适合场景的评估框架，以评估来驱动产品的策略优化