不止检索,更要推理:揭秘面向领域的RAG方法与突破

不止检索,更要推理:揭秘面向领域的RAG方法与突破

12分钟 ·
播放数5
·
评论数0

📌 本期内容

本期我们聚焦一篇最新研究论文,介绍 DO-RAG(Dynamic Ontology-enhanced Retrieval-Augmented Generation) ——一种通过知识图谱增强来克服传统 RAG 局限的新框架。DO-RAG 的目标是让检索增强生成不再只是“搬运片段”,而是真正具备推理与可解释性,大幅减少幻觉并提升召回与相关性。

🚩 传统 RAG 的三大痛点

  1. 碎片化证据(Fragmented Evidence)纯向量检索只能找到“相似段落”,缺乏结构化关系,导致答案不成体系。
  2. 缺乏因果链条(No Causal Chain)回答常常没有“为什么是这样”的解释,可信度低。
  3. 幻觉难控(Hallucination Control)生成模型容易编造与证据无关的内容,企业级场景难以落地。

🚀 DO-RAG 的核心创新

  1. 动态知识图谱构建(Dynamic Knowledge Graph Construction)
    通过多智能体(Agentic)链路,从文档、日志、图表等中自动抽取实体-关系-属性
    高层识别章节与结构,中层抽取专业实体(如 API、参数),底层构建依赖关系,形成可更新的多层级知识图谱。
  2. 混合检索机制(Hybrid Retrieval)
    先图谱、后向量
    :用户查询先落到图谱节点,多跳遍历找到关键联系,再生成“图感知”的子问题去做向量检索。
    最终融合图证据 + 文本证据 + 历史上下文,形成更精确的回答基础。
  3. 分阶段生成与事实校正(Multi-stage Generation & Fact-checking)
    初稿:只基于证据生成,拒绝脑补。
    复稿:结构重排、逻辑压缩,确保可读性。
    终稿:附带脚注与来源,保证可追溯。
  4. 全链路可观测性(End-to-end Observability)
    使用 LangFuse 等工具追踪完整链路:子问题拆解 → 图谱检索 → 向量检索 → 生成 → 校正。
    支持“我不知道”回退与自动生成跟进问题。

🔄 DO-RAG 工作流程

问题输入 → 图谱打点与遍历 → 子问题精炼 → 向量检索 → 融合证据 → 分阶段生成 → 输出带脚注的答案 → 自动生成跟进问题

📊 实验成果(数据支撑)

  • 测试领域:分布式数据库(SunDB)、电气工程(手册、图表)
  • 评估指标:Answer Relevancy、Contextual Recall、Contextual Precision、Faithfulness
  • 结果表现
    召回率 CR 接近 1.0,几乎不漏证据
    相关性 AR 达到 94%+,对比 FastGPT、TiDB.AI、Dify.AI 等主流框架,最高领先 33.38%
    在电气工程问答中,Faithfulness 显著提升,减少幻觉
    局部模型如 DeepSeek-R1 在创造性与图谱约束之间存在张力,需要优化对齐策略

🌟 总结与未来展望

DO-RAG 的创新在于:

  • 从“检索器”到“推理器”,让 RAG 不止找段落,而是基于结构化知识给出因果链条。
  • 证据优先:所有答案必须附带可追溯来源,提升业务与合规场景的可用性。
  • 工程友好:Tracing 与指标面板让研发团队能快速定位问题。

未来研究方向:

  • 扩展到更大规模知识库与实时更新场景
  • 探索“强推理模型 + 强结构约束”的最佳平衡
  • 提升在长尾问题与跨领域任务上的泛化能力

📚 参考链接