如何对RAG进行评估?

如何对RAG进行评估?

2分钟 ·
播放数164
·
评论数0

如何对RAG进行评估

- 大家知道现在的AI产品很多都是做的对话或者生成类型的任务,这些场景不像传统的场景一样比较好进行测试和迭代。再加上因为大模型本身的原理问题,AI产品在输出的稳定性上也没有那么可靠。所以我们觉得在AI产品开发之前,针对场景事先建立评估的标准和体系是特别重要的一件事,就好像我们以前有TDD,测试驱动开发一样。我们现在在AI产品开发上,提出了EDD,就是评估驱动开发。就是先建立评估的标准,然后根据评估的结果对模型和策略进行不断地调整和优化

- 那么现在大家做的比较多的场景里,RAG的质量评估是比较困难的。那我今天就介绍一个RAG的开源评估框架,RAGAS

  - RAGAS在评估的时候,假定的是一个比较典型的给定一段上下文,模型针对问题生成答案。他评估的方式主要是使用大模型或者embedding的方式,去判断上下文、问题和答案之间的相关度。他主要关注结果的三个方面

    - faithfulness,忠实性,也就是答案是不是基于给定的上下文生成的

    - answer relevancy,答案相关度,答案是不是能够回答的了问题

    - Context relevancy,上下文相关度,上下文是不是只给出了和问题相关的信息,噪声多不多

  - 那么RAGAS认为这三点基本就可以很好的代表一个RAG产品的能力

  - 那经过我们的测试,我们觉得RAGAS总的来说还是不错的。我们在对RAG的评估中,他的结果和人类的偏好是比较一致的,而且评估的结果也比较稳定。对于不同的模型或者策略来说,也有一定的区分度,能够帮助我们评价结果的质量

- 如果您现在也在做RAG类型的产品,我建议您也应该尽快找到适合场景的评估框架,以评估来驱动产品的策略优化