本论文全面回顾了检索增强生成(RAG),这是一种通过结合外部知识库来提升大型语言模型(LLM)性能的创新方法。它概述了RAG从基础到高级和模块化范式的演变,并深入探讨了其检索、生成和增强等核心组成部分中的关键技术。论文还提出了评估框架和基准来衡量RAG模型的表现,并讨论了当前面临的挑战和未来的研究方向,包括其在多模态应用中的扩展。
📘 文献简报:检索增强生成(RAG)在大型语言模型中的研究进展与挑战
来源:Retrieval-Augmented Generation for Large Language Models: A Survey
日期:2024年5月22日
作者:来自多机构的研究团队
📚 作者列表(共10位):
- Jiaxin Shi — Shanghai Jiao Tong University
- Weijia Shi — Shanghai Jiao Tong University
- Zhenyu Zhang — Shanghai Jiao Tong University
- Ziyang Lu — Shanghai Jiao Tong University
- Hongxin Jiang — Shanghai Jiao Tong University
- Kaiwen He — Shanghai Jiao Tong University
- Yizhe Zhang — Microsoft
- Chunyun Zhang — Microsoft
- Chunting Zhou — Microsoft
- Tao Yu — University of Illinois Urbana-Champaign (UIUC)
arXiv编号:2312.10997v5
1. 概述:RAG 的提出背景与意义
大型语言模型(LLMs)具备强大的生成与理解能力,但存在以下关键问题:
- 幻觉(hallucination):生成与事实不符内容
- 知识陈旧:依赖静态训练数据
- 推理不可追溯:缺乏解释性
检索增强生成(RAG)技术通过结合外部知识库,实现“知识注入+动态更新+推理可追溯”,成为解决上述挑战的有效方案。
2. RAG 的研究范式演进
🌱 Naive RAG(朴素RAG)
传统“检索-生成”流程:
- 索引(Indexing):文档分块,向量化,存入向量数据库
- 检索(Retrieval):基于语义相似度返回Top-K相关块
- 生成(Generation):将原始查询与文档块送入LLM生成答案
🚀 Advanced RAG(高级RAG)
在Naive基础上加入:
- 查询优化(Query Expansion)
- 检索后过滤与重排序(Reranking)
🧠 Modular RAG(模块化RAG)
模块间交互灵活:
- 支持自适应检索、自省控制、模块替换
- 典型流程如:
Rewrite-Retrieve-Read
Generate-Read(生成代替检索)
Self-RAG(自反控制检索)
3. RAG 的核心组件与技术
🔍 检索模块
- 数据源类型:从非结构化文本扩展至PDF、KG等
- 检索粒度:
文本:Token → Chunk → Document
图谱:Entity → Triplet → Sub-graph - 索引优化:
分块策略:固定Token,Small2Big等上下文增强技术
元数据增强:如文件名、时间戳、摘要等,用于过滤与选择 - 查询优化:
Query Expansion, Sub-Queries
嵌入模型与微调(如BGE, PROMPTAGATOR)
使用适配器(如AAR、PRCA)实现无微调优化
🧾 生成模块
- 上下文处理:
Reranking 减少“Lost in the Middle”问题 - 生成器优化:
融合检索结果增强生成效果
针对领域微调生成器
⚙️ 增强机制(Augmentation)
- 一次检索(Once Retrieval)
- 迭代检索(Iterative Retrieval)
- 递归检索(Recursive Retrieval)
- 自适应检索(Adaptive Retrieval):如 WebGPT、FLARE、Self-RAG,使用LLM生成的特殊标记控制检索流程
4. 下游应用任务与评估
🧠 应用任务
- 单跳/多跳问答、多选问答、长文问答
- 信息抽取(IE)、对话生成、代码检索等(详见表 II)
📏 评估维度
- 检索质量:
Hit Rate, MRR, NDCG - 生成质量:
Faithfulness(忠实性)
Relevance(相关性)
Accuracy(准确率)
Robustness(鲁棒性)、Integration、Counterfactual Testing - 工具与基准:RALLE、RAGAS、ARES、TruLens、CRUD 等,但仍缺乏统一标准
5. 面临挑战与研究趋势
⚠️ 当前挑战
- 半结构化数据处理尚不成熟
- 检索粒度设计与上下文长度难以平衡
- 缺乏标准化、稳定的评估体系
🔭 未来研究方向
- 支持超长上下文推理
- 结合LLM微调与RAG的非参数特性
- SLM(小型语言模型)与RAG协同:如微型检索质量判别器
- 统一RAG工具栈与平台化集成
- 多模态RAG:
如 RA-CM3(图文)、BLIP-2(图像编码+语言生成)、RBPS(代码片段)、CoK(图谱与文本融合)
6. 引用摘录与总结金句
- “RAG combines the parametric knowledge of LLMs with non-parametric external sources.”
- “Indexing. Documents are split into chunks, encoded into vectors, and stored in a vector database.”
- “Adaptive RAG enables LLMs to autonomously decide when to retrieve or generate.”
- “Developing new RAG methods for super-long contexts is one of the key trends.”
✅ 总结
检索增强生成(RAG)正在成为解决 LLM 知识有限性与推理缺陷的重要手段。其能力涵盖知识补充、事实增强、推理链完善和可追溯性优化。
从最初的“检索-生成”结构,到如今模块化、多模态、可自适应的智能RAG系统,该技术正快速演进,并为开放领域与垂直场景提供了更强的语义理解与生成能力。
RAG是大型语言模型迈向“可控”、“可信”、“可追溯”智能系统的关键路径之一。
