将关系数据语义映射到知识图谱的多智能体系统

这篇论文提出了一种基于大型语言模型（LLM）的语义多智能体系统，用于自动化地将关系型数据库集成到统一的知识图谱（KG） 中。其核心思想是在数据库表之上构建一个语义层，通过多个分工合作的LLM智能体，将数据库的表和列映射到通用的Schema.org词汇表中的概念上，从而实现异构数据源的语义集成。该系统在多个领域的评估中实现了超过90%的映射准确率。

以下是各章节内容的详细介绍：

1. 引言

本章阐述了企业面临的数据挑战：关键业务数据通常存储在多个孤立的数据系统中，导致数据互操作性差、难以充分利用。知识图谱作为一种强大的范式，能够为异构数据集创建统一的语义视图。然而，传统的集成方法需要大量人工工作来对齐模式。近年来，大型语言模型在复杂推理任务（如语义映射）上表现出色，为自动化这一过程提供了新机遇。因此，本文提出了一种新颖的语义多智能体系统，利用LLM代理自动将关系数据库映射到知识图谱，旨在显著减少数据集成的手动负担。

2. 文献综述

本章回顾了相关领域的研究：

知识图谱与数据集成：介绍了虚拟知识图谱范式、面向工业4.0的博世工业4.0知识图谱，以及旨在弥合理论与应用差距的企业知识图谱框架。

LLM的应用：指出LLM在结构化信息抽取和知识图谱构建任务中日益受到重视，并提及作者先前的工作表明LLM可以提高从文本中提取结构化知识的准确性。

3. 方法论

本章详细描述了所提出的多智能体系统的构建方法和评估数据源。

3.1 数据描述：系统使用Yale Spider数据集进行评估，这是一个包含200个跨138个领域的真实世界数据库的复杂基准。语义映射使用的是广泛采用的Schema.org词汇表，以避免“幻觉”出无明确定义的新术语。

3.2 图-向量存储构建：为了辅助映射过程，系统构建了一个混合图-向量索引用于检索增强生成。具体流程是：为Schema.org中的每个术语提取其URI、类型、注释等信息，构建一个单跳子图以丰富语义上下文，然后将每个子图转换为向量表示并存入向量库。在映射时，根据语义相似度从中检索相关术语。

3.3 多智能体系统架构：系统由三个基于GPT-4o-mini的专用代理组成，以流水线方式工作：映射代理：负责将数据库表的列映射到对应的Schema.org术语。它接收表名、列名、值统计样本等信息，并从图-向量库中检索最相似的术语作为参考。
关系代理：负责识别表之间的主键和外键关系，从而在知识图谱中建立实体间的链接。
验证代理：负责检查和修正前两个代理产生的映射和关系结果，以提高最终输出的准确性。
所有代理都会输出对其完成任务置信度的评估（高、中、低）。

4. 结果与讨论

本章报告了系统在Spider数据集多个领域上的评估结果。

执行时间：系统执行时间随待映射表和列数量的增加而增加，这与建模关系的复杂性有关。

映射准确率：通过对零售、电影、汽车、公寓和配送五个领域进行人工评估，系统整体准确率令人满意。其中，“公寓”领域准确率最高（93.54%），“零售”领域最低（78.72%）。结果显示，置信度为“高”的映射通常正确率也最高。

讨论：结果表明，该系统能够有效实现跨领域的自动化语义集成，且高置信度输出具有很高的可靠性。

5. 结论

本章总结了论文的主要贡献：

设计并实现了一个用于自动化关系数据到图谱集成的语义多智能体系统。

创新性地利用LLM代理，基于现有词汇表对结构化数据进行语义映射和推理。

在真实的Spider基准上进行实证评估，验证了系统的实用性和泛化能力。
最后，指出了未来的研究方向：支持自定义领域本体、通过微调增强代理的推理能力，以及研究集成更大规模、更异构数据集的扩展策略。