📌 本期内容
本期我们聚焦一篇最新研究论文,介绍 DO-RAG(Dynamic Ontology-enhanced Retrieval-Augmented Generation) ——一种通过知识图谱增强来克服传统 RAG 局限的新框架。DO-RAG 的目标是让检索增强生成不再只是“搬运片段”,而是真正具备推理与可解释性,大幅减少幻觉并提升召回与相关性。
🚩 传统 RAG 的三大痛点
- 碎片化证据(Fragmented Evidence)纯向量检索只能找到“相似段落”,缺乏结构化关系,导致答案不成体系。
- 缺乏因果链条(No Causal Chain)回答常常没有“为什么是这样”的解释,可信度低。
- 幻觉难控(Hallucination Control)生成模型容易编造与证据无关的内容,企业级场景难以落地。
🚀 DO-RAG 的核心创新
- 动态知识图谱构建(Dynamic Knowledge Graph Construction)
通过多智能体(Agentic)链路,从文档、日志、图表等中自动抽取实体-关系-属性。
高层识别章节与结构,中层抽取专业实体(如 API、参数),底层构建依赖关系,形成可更新的多层级知识图谱。 - 混合检索机制(Hybrid Retrieval)
先图谱、后向量:用户查询先落到图谱节点,多跳遍历找到关键联系,再生成“图感知”的子问题去做向量检索。
最终融合图证据 + 文本证据 + 历史上下文,形成更精确的回答基础。 - 分阶段生成与事实校正(Multi-stage Generation & Fact-checking)
初稿:只基于证据生成,拒绝脑补。
复稿:结构重排、逻辑压缩,确保可读性。
终稿:附带脚注与来源,保证可追溯。 - 全链路可观测性(End-to-end Observability)
使用 LangFuse 等工具追踪完整链路:子问题拆解 → 图谱检索 → 向量检索 → 生成 → 校正。
支持“我不知道”回退与自动生成跟进问题。
🔄 DO-RAG 工作流程
问题输入 → 图谱打点与遍历 → 子问题精炼 → 向量检索 → 融合证据 → 分阶段生成 → 输出带脚注的答案 → 自动生成跟进问题
📊 实验成果(数据支撑)
- 测试领域:分布式数据库(SunDB)、电气工程(手册、图表)
- 评估指标:Answer Relevancy、Contextual Recall、Contextual Precision、Faithfulness
- 结果表现:
召回率 CR 接近 1.0,几乎不漏证据
相关性 AR 达到 94%+,对比 FastGPT、TiDB.AI、Dify.AI 等主流框架,最高领先 33.38%
在电气工程问答中,Faithfulness 显著提升,减少幻觉
局部模型如 DeepSeek-R1 在创造性与图谱约束之间存在张力,需要优化对齐策略
🌟 总结与未来展望
DO-RAG 的创新在于:
- 从“检索器”到“推理器”,让 RAG 不止找段落,而是基于结构化知识给出因果链条。
- 证据优先:所有答案必须附带可追溯来源,提升业务与合规场景的可用性。
- 工程友好:Tracing 与指标面板让研发团队能快速定位问题。
未来研究方向:
- 扩展到更大规模知识库与实时更新场景
- 探索“强推理模型 + 强结构约束”的最佳平衡
- 提升在长尾问题与跨领域任务上的泛化能力
📚 参考链接
