这篇题为《基于检索增强的关系数据库本体生成》的论文提出了一种名为 RIGOR 的新方法,它利用大语言模型和检索增强生成技术,以最小的手动工作量,自动将关系数据库模式转换为丰富、高质量的OWL本体。
以下是各章节内容的详细总结:
摘要
- 问题:将关系数据库转化为带有丰富本体的知识图谱能提升语义互操作性和高级推理能力,但现有方法要么需要大量人工,要么只能生成基础本体。
- 解决方案:提出 RIGOR ——一种基于LLM驱动的、检索增强的迭代生成方法。它结合三种来源:数据库模式及文档、外部领域本体库、一个不断增长的核心本体。
- 过程:通过RAG检索相关信息,提示生成式LLM为每个表生成带溯源标签的“增量本体”片段,再由一个评判LLM进行精炼后合并到核心本体中。该过程遵循外键约束逐表迭代,直至覆盖完整。
- 成果:在真实数据库上的实验表明,RIGOR生成的本体在准确性、完整性、简洁性、适应性、清晰度和一致性等标准质量维度上得分很高,同时大幅减少了人工工作量。
1. 引言
- 阐述了关系数据库的重要性及其在语义查询和数据集成方面的局限性。
- 强调了将其转化为带有定义良好本体的知识图谱的价值。
- 指出以往创建本体的方法需要大量专家手动努力或仅依赖模式本身,导致生成的本体基础且未能与现有词汇对齐。
- 介绍了LLMs在理解文本、编码知识和生成结构化输出方面的卓越能力,但目前尚未有工作探索利用LLMs从关系数据库生成本体。
- 正式提出 RIGOR 方法,概述其迭代式RAG管道的工作流程(如图1所示),并声称其在多个质量维度上优于现有方法。
2. 相关工作
- 2.1 从关系数据库中提取本体:回顾了语义网社区的历史工作,如W3C直接映射、R2RML标准以及BootOX、Karma等工具。指出了这些基于启发式或字符串匹配的方法在复杂场景下面临的挑战,并总结了其三大缺点:依赖静态映射规则、假设数据已预处理、缺乏与外部本体的对齐。
- 2.2 用于本体和知识图谱生成的LLMs:综述了LLMs在从文本中进行知识工程和本体生成方面的最新研究,如OntoKGen。同时提到了相关的评测基准。指出本文工作与这些研究的区别在于专注于结构化输入(数据库模式)。
- 2.3 检索增强生成:介绍了RAG技术的发展,及其在提高事实准确性和减少幻觉方面的作用。对RAG进行了分类,并说明本文采用的是先进的混合递归RAG。
- 2.4 能力问题生成:说明了能力问题用于验证本体质量的传统方法及其劳动密集型特点。介绍了利用LLMs自动化生成CQs的最新进展,并说明本文将使用LLM作为评判者来生成和评估CQs。
3. 方法论
这是论文的核心章节,详细描述了RIGOR框架。
- 3.1 数据结构形式化:正式定义了关系数据库模式、文本描述、本体表示(OWL 2 DL)、外部本体库、增量本体片段和目标输出本体所需满足的条件。
- 3.2 基于嵌入的相关知识检索:描述了如何为当前处理的表,通过嵌入模型和向量检索,从三个来源获取相关上下文:1) 不断增长的核心本体;2) 数据库模式及其自然语言文档;3) 外部本体库。
- 3.3 LLM提示构建与本体生成:展示了如何利用检索到的上下文构建提示(如图2所示),指导生成式LLM为当前表生成一个增量本体片段。提示中包含详细的指令,例如定义类、属性、添加溯源注释、重用已有概念等。
- 3.4 生成增量本体的验证与精炼:生成的增量本体需经过一个评判LLM的审核,评估其与核心本体的一致性、与输入模式的对应、句法有效性与逻辑一致性以及命名清晰度。评判LLM提供反馈,必要时进行修改,对于关键部分也可引入人类专家。
- 3.5 迭代集成与完成:验证后的增量本体被合并到核心本体中。然后管道跟随外键链接处理下一个表,重复此过程直至覆盖所有表,最终形成一个完整的OWL 2 DL本体。
- 3.6 能力问题生成:描述了使用Mistral LLM并通过思维链提示工程技术,为评估本体质量而自动生成CQs的过程。
4. 实验
- 4.1 评估数据库:使用了两个真实的医疗数据库:一个来自医院的肝癌登记数据库和一个来自PhysioNet的公开ICU数据库。
- 4.2 外部本体库:选择了BioPortal中的四个生物医学本体。
- 4.3 实验设置:说明了计算资源、使用GPT-4生成数据库文档并由医学专家审核,以及选用的多个LLMs。
- 4.4 本体生成方法:定义了三种对比方法:基线:仅向LLM提供数据库模式。
非迭代方法:提供模式和一份外部本体样本,要求单次生成完整本体。
RIGOR框架:本文提出的完整迭代式RAG管道。 - 4.5 评估策略:采用了六种互补的评估方法:句法有效性检查。
逻辑一致性检查。
基于标准的评估(使用OOPS!扫描建模缺陷)。
结构分析(统计类、属性、公理的数量)。
数据库模式的语义覆盖度(通过嵌入相似性计算本体类与表列名的匹配率)。
通过CQ性能评估本体质量(使用评判LLM在六个维度上评分)。 - 4.6 结果:前五种策略仅适用于RIGOR生成的有效本体。RIGOR生成的所有本体均通过句法和逻辑检查,建模缺陷较少。
结构分析显示不同LLM生成的本体规模有差异,DeepSeek生成的最为丰富。
语义覆盖度分析示例显示,特定增量本体与源表的列名匹配率达到72.4%。
最关键的结果:在CQ性能评估中,RIGOR方法在所有LLM和数据库上均显著且一致地优于基线和非迭代方法(如表2所示)。
5. 结论
- 总结了RIGOR作为一个迭代式混合递归RAG管道的贡献,它能以最小人力将关系模式转化为富含溯源的OWL 2 DL本体。
- 重申了实验结果:RIGOR在CQ分数、逻辑一致性和建模实践方面均超越基线方法。
- 得出结论:检索引导的LLMs能够生成语义丰富、符合标准、并能忠实反映复杂关系模式的本体。
6. 附录
- 6.1 符号摘要:以表格形式列出了文中使用的主要形式化符号。
- 6.2 提示词:提供了用于生成能力问题和评估本体质量的详细提示词模板。
- 6.3 实现细节:给出了代码级别的模型设置示例。
- 6.4 详细评估结果:提供了更细粒度的CQ性能分维度评分表,以及一个增量本体的可视化图及其与数据库列的语义对齐热力图。
