LLMs4OM：使用大语言模型进行本体匹配

这篇题为《LLMs4OM: Matching Ontologies with Large Language Models》的论文提出并评估了一个利用大语言模型进行本体匹配的新框架。以下是论文各章节的主要内容总结：

摘要

本体匹配对于知识集成和数据互操作性至关重要。传统方法常依赖专家知识或预测模型，而对大语言模型的潜力探索有限。本文提出了LLMs4OM框架，通过检索和匹配两个模块，并结合三种本体表示形式，以零样本提示的方式评估LLMs在本体匹配任务中的有效性。在涵盖多个领域的20个数据集上的综合评估表明，在该框架下，LLMs的性能可以媲美甚至超越传统本体匹配系统，尤其是在复杂匹配场景中。

1. 引言

阐述了在异构知识系统中实现语义互操作性的重要性，以及本体匹配作为关键解决方案的角色。随着大语言模型在自然语言理解方面的突破，将其应用于本体匹配任务具有巨大潜力。早期尝试直接将整个本体输入LLM存在上下文长度限制和幻觉风险两大缺陷。为此，本文提出了LLMs4OM框架，采用双模块策略：首先使用检索增强生成技术筛选候选匹配，再利用LLM进行精细匹配，以克服上述限制。

2. 相关工作

将现有的本体匹配系统分为三类：

无监督学习方法：通常利用BERT等模型的嵌入进行相似度计算。

监督学习方法：主要对Transformer模型进行微调以适应特定任务。

基于LLM的方法：探讨了使用提示模板、结合检索器获取候选匹配后再由LLM判断等策略。本文工作属于此类，并进行了更全面的评估。

3. LLMs4OM – 方法论框架

详细介绍了LLMs4OM框架的四个核心步骤：

概念表示：从本体中提取三种文本化表示：单独概念、概念-父节点、概念-子节点。

检索器模型：使用嵌入模型为所有目标概念构建知识库，并为源概念检索最相似的Top-K个目标概念候选。

大语言模型：将检索到的每个概念对填入预设的提示模板，输入给LLM，让其判断两者是否指向同一实体，并输出置信度分数。

后处理：融合检索相似度分数和LLM置信度分数，经过置信度过滤、高精度匹配器和基数过滤三步，得到最终匹配对。

4. LLMs4OM – 本体匹配评估

描述了实验设置与结果分析：

评估数据：来自OAEI倡议的6个轨道共20个数据集，涵盖解剖学、生物多样性、表型、通用知识图谱、生物医学和材料科学等多个领域。

评估模型：结合了4种检索器与7种开源及闭源LLM进行评估。

研究问题与发现：RQ1：概念表示的影响因任务而异。基础概念表示在检索阶段普遍最优，但在LLM匹配阶段，加入父节点或子节点信息能提升某些任务的理解与性能。
RQ2：检索器性能因领域而异。OpenAI的text-embedding-ada在多数轨道领先，而sentence-BERT在材料科学轨道表现最佳。增大检索数量top_k能提升召回率，但需权衡时间成本。
RQ3：在不同任务中，GPT-3.5、Mistral、LLaMA-2等LLM轮流成为最佳模型。结果显示，LLMs4OM框架在多个任务上的F1分数超越了OAEI 2023中的传统顶尖系统。

5. 讨论

RAG技术的优势：将匹配复杂度从O(n²)降至O(kn)，大幅提升了处理效率，并降低了因一次性输入全部信息导致的幻觉风险。

在Bio-ML轨道的低性能：尽管检索阶段表现良好，但LLM在该生物医学轨道的整体匹配结果不佳。即使换用领域特定的LLM，性能提升也有限，表明需要针对此类任务设计不同的LLM应用方法。

6. 结论

LLMs4OM框架证明了LLMs在本体匹配任务中的强大潜力。通过结合检索器、零样本提示以及灵活的概念表示，该框架能够在复杂场景下取得优于传统系统的性能。这项工作为未来探索LLMs在知识工程领域的应用奠定了基础。

其他

论文还提供了完整的参考文献列表，并公开了框架的源代码。