vol.4 趣味播客大白话学 AI 系列之 RAG

9分钟 ·1 年前

20

·

0

检索增强生成（Retrieval-Augmented Generation，简称RAG）技术正在改变我们与大语言模型（LLM）交互的方式。本文将基于播客对话内容，深入探讨RAG的核心概念、工作流程、演进历程以及未来发展方向。

RAG的基本原理

大语言模型虽然强大，但经常会出现"一本正经的胡说"或提供过时信息的情况。当我们需要模型掌握最新事实或基于特定专业资料回答问题时，RAG技术就显得尤为重要。

RAG的工作流程通常分为三个基本步骤：

索引（Indexing）：将外部文件（如专业文章、笔记等）处理成小块（Chunking），然后转换成机器可理解的数字形式（向量embedding），最后存入向量数据库以便后续检索。

检索（Retrieval）：当用户提问时，系统会将问题转换为向量，然后在向量数据库中寻找与问题最相关的文档块作为证据。

生成（Generation）：系统将用户的原始问题和检索到的相关文档块一起提供给大模型，指导它基于这些材料生成答案，而非仅靠模型自身的知识。

这种方法使模型的回答更加可靠，并且能够清晰地追溯信息来源。

RAG的演进历程

RAG技术经历了从简单到复杂的发展过程：

朴素RAG：最基础的索引-检索-生成三步流程，简单直接但在复杂情况下效果有限。

高级RAG：在检索前后增加了优化步骤，如：检索前：分析并改写问题，优化索引结构
检索后：对文档块进行重新排序（Re-ranking），突出重点内容，或进行压缩（Compression），提取核心信息以避免"lost in the middle"问题（信息太多导致模型忽略中间关键部分）

模块化RAG：将整个RAG流程拆分成可自由组合替换的模块（搜索模块、重写模块、重排模块、缝合模块等），使系统能够根据具体任务设计更复杂、更智能的工作流程，如多轮检索或自适应检索等。

文档分块（Chunking）的重要性

文档分块是影响RAG系统效果的关键环节。主要的分块方法包括：

固定大小分块：如每500个字切一块，简单粗暴但可能会切断完整的语义。

语义分块（Semantic Chunking）：尝试理解内容的结构和意思，按完整的句子或段落切分，或在自然的语义断点处切分，能更好地保留上下文。

递归分块（Recursive Chunking）：先用较大的分隔符（如段落换行符）切分，若块仍然过大，则用更小的分隔符（如句号）在大块内部进一步切分，灵活适应不同文档结构。

选择哪种分块方法需要根据文档内容特点、使用的模型等因素进行测试和权衡。

RAG面临的挑战

尽管RAG技术潜力巨大，但仍面临多方面挑战：

检索质量：若检索回来的信息本身就是错误的或与问题关联性不强，模型基于这些信息生成的答案可能会更加不准确。

信息平衡：在"大海捞针"（检索信息太少，找不到关键答案）和"信息过载"（检索信息太多，模型抓不住重点）之间很难把握平衡。

工程落地：实际部署RAG系统时会遇到各种问题，如内容丢失、检索结果排序错误、模型无法从材料中提取所需信息等。

评估困难：如何有效测试和评估RAG系统的好坏本身就是一个挑战。

成本和效率：虽然比重新训练或微调大模型更灵活成本更低，但索引数据、运行检索、调用大模型生成等环节仍有计算开销和时间成本。

RAG的价值与生态

尽管挑战存在，RAG的价值在对准确性和时效性要求高的场景中尤为突出：

可控的信息来源：开发者能更好地控制模型回答的信息来源，提高答案可靠性。

可追溯性：能够追踪模型回答是基于哪部分原始资料生成的，这在企业应用和专业领域非常重要。

围绕RAG的生态系统也越来越成熟，如LangChain、LlamaIndex、AWS Bedrock、Pinecone等工具和平台，提供了现成的组件和流程，降低了使用门槛。

RAG的未来发展

随着大模型处理长文本能力的增强（长上下文窗口越来越大），RAG的角色可能会发生变化：

事实核查工具：专注于验证模型回答的准确性。

私有知识注入：用于注入非常特定或私有的知识。

智能交互方式：不仅仅是找答案，还能帮助用户更好地探索信息，甚至辅助用户厘清自己的问题，成为辅助思考而非简单问答的工具。

总之，RAG技术通过连接大模型与外部知识库，显著提升了AI系统在需要具体知识的任务中的准确性、时效性和可靠性，让AI回答更有理有据。随着技术的不断发展，RAG有望在更广泛的场景中发挥重要作用。

在小宇宙打开