金融行业业务本体(FIBO)是解决金融业数据语义不一致问题并面向大数据应用的最佳实践:
- 背景与目标:FIBO的诞生源于金融服务业对跨数据源和消息流实现共同、无歧义语义的迫切需求。传统的数据模型和消息格式标准无法解决“对账地狱”问题,而大数据架构的兴起使得语义统一变得更为关键。FIBO旨在提供两大核心价值:为异构数据提供通用语义以实现对账和比较;支持基于语义技术的新型数据分析应用。
- 核心定位与设计原则:FIBO被定位为一个计算独立模型(CIM),即独立于任何具体技术解决方案设计的业务概念模型。为确保其既严谨又可被业务方理解,FIBO采用Web本体语言(OWL) 作为形式化逻辑基础,同时通过图表、电子表格等非技术形式向业务专家呈现,以便于评审和验证。
- 本体构建方法论:FIBO通过回答两个基本问题来定义任何概念(“事物”)的语义:
“这是什么类型的事物?”:通过构建分类层级( taxonomy) 来定义,例如“股票”是“上市证券”的一种,而“上市证券”又是“可交易证券”的一种。
“什么属性使其区别于其他事物?”:通过定义属性( properties) 来区分,例如股票赋予持有者股权,而债券赋予持有者债权。FIBO采用多维度分类面来全面捕捉概念,而非单一继承树。 - 发展内容与范围:FIBO的开发始于2008年,通过逆向工程现有标准(如ISO 20022 FIBIM、FpML)并经由行业专家评审迭代构建。其内容覆盖广泛,包括:
金融工具:证券、衍生品(如利率互换)等。
业务实体:定义了个人、法律实体、组织(包括“合约能力实体”以对应LEI标识)及其所有权、控制权关系。
基础概念:引入了更高层次的“原型”(如合同、交易)和“分区”(如具体与抽象事物、事件),并参考了REA本体、塞尔的社会建构本体等来夯实法律、社会概念(如权利、义务)的基础。 - 应用与验证:论文描述了概念验证(PoC) 项目,展示了如何从FIBO业务概念本体派生出操作型本体,并应用于语义技术:
使用推理机自动将利率互换实例数据分类到FIBO和ISDA的类别中。
结合业务实体数据,通过SPARQL查询分析跨所有权层次的交易对手风险暴露和聚合头寸。
证明了业务概念本体(完整、独立于应用)与操作型本体(为特定应用优化和约束)的区别与联系。 - 标准化与未来展望:自2011年起,FIBO通过与对象管理组织(OMG) 合作推进标准化。其标准以模块化形式发布,包含机器可读的OWL文件和业务可读的文档。论文提供了涵盖基础、业务实体、证券、衍生品等领域的标准化路线图。作者总结认为,FIBO不仅为数据集成和管理提供了必要的语义基础(作为CIM),其驱动的语义技术架构也为大数据环境下的风险管理和新型数据分析开辟了道路。
《金融行业业务本体:大数据的最佳实践》,详细介绍:
- 引言 本章阐述了FIBO诞生的背景:金融服务业对跨数据源和消息流的共同、共享含义的需求。此前业内的通用消息格式和逻辑数据模型倡议未能解决“对账地狱”问题,其核心在于缺乏对共同语义的处理。随着监管机构为应对系统性风险提出的倡议,以及“大数据”架构的出现,这些挑战将变得更加普遍。FIBO旨在提供无歧义的共享含义标准,并利用“语义网”的新兴架构进行部署,以带来两大益处:提供共同语义以便对账和比较数据;利用语义技术应用程序以新方式分析大数据集。
- 数据管理挑战 本章在正式信息系统管理理论的背景下讨论数据管理的挑战。除了数据质量、来源等已知问题,更深层的是数据与其含义之间的关系问题。当系统孤立时,数据元素的语义可以忽略;但一旦系统间需要交互或引入新数据源,就必须理解数据元素的含义以确保正确映射。FIBO正是为解决系统集成和开发中的共同含义问题而构建。
- 集成挑战 本章探讨集成多源数据时的挑战。指出单一的“数据模型”或商定的“词汇表”无法解决集成问题,因为不同业务单元经常一词多义或一义多词。因此,金融服务业通过企业数据管理委员会(EDM Council)委托开发了一个基于“语义”的模型来处理集成问题。
- 大数据 本章深入探讨“大数据”环境下的语义挑战。强调“大数据”不仅是数据体量的增长,更是一种架构转变,使得数据不再与任何特定应用程序绑定。数据必须被纯粹地理解为信息,并能被任何需要该信息的应用程序使用。这就要求数据必须具有明确的含义,这使得原本困难的数据集成问题变得更为复杂。FIBO因其旨在解决语义问题,故能很好地应对大数据领域的挑战。
- IT开发生命周期 本章介绍了正式的IT开发方法论(如瀑布模型、敏捷开发)及其核心产出物类型:平台特定模型(PSM)、平台无关模型(PIM)和计算无关模型(CIM)。CIM独立于任何技术解决方案设计,代表业务问题本身。文章指出,FIBO是作为计算无关的“概念”模型(CIM)开发的。
- 概念模型的要求 本章详细阐述了业务概念模型(特别是需求规格说明)的正式要求:必须完整、无歧义、可实施、可测试、独立于任何设计,并能被业务方理解。对于数据的概念模型,类似的要求包括:形式化框架、有意义、可在数据中实施、可验证、独立于数据库或消息模式,并能被业务方理解。任何数据语义模型都必须形式化、逻辑化,同时又能以非技术化的方式呈现给业务利益相关者。
- FIBO要求 基于上述要求,FIBO的建模需要满足两个看似矛盾的要求:1)基于某种形式逻辑;2)内容能以业务利益相关者无需技术符号即可理解的方式呈现。为此,FIBO选择:1)使用网络本体语言(OWL)作为形式化基础;2)使用图表(无方言的节点和边)和电子表格/表格报告作为业务可理解的呈现格式。这种方法允许向各领域专家提交不完整或可能有误的“稻草人”模型进行评审。
- 寻求意义 本章区分了语法和语义。将ISO 20022 FIBIM模型中的术语导入OWL只会得到一个逻辑数据模型,而非语义。语义关乎模型元素所代表的主题事物。本体在这两个维度上都有定义:是对现实世界主题的形式化表达。OWL中的基本概念以“三元组”(主体-谓词-客体)形式存储,构成语义网的基础语言。
- 含义:事物与事实 在开发FIBO并向业务专家解释时,对于模型中的任何一类“事物”,会提出两个问题:1)这是哪种事物?(抽象/分类问题)2)是什么特性将它与其它事物区分开?(属性问题)。回答第一个问题会创建一个继承层次结构或分类法(类似林奈分类法)。回答第二个问题则识别出区分该类事物的属性。多个独立变化的属性形成了不同的“分类面”,FIBO使用多面分类法来捕捉所有可能的概念,而不局限于单一应用用例。
- FIBO开发概述 本章概述了FIBO的开发历程。始于2008年,从ISO 20022 FIBIM草案模型中的证券参考数据术语“逆向工程”开始,并利用ISO 10962标准作为证券分类基础。草案模型通过每周网络会议向行业专家开放评审。随后逐步扩展到场外衍生品、市场数据、基金和贷款术语等领域。
- 商业实体 本章专门介绍商业实体模型的开发。从识别“自治实体”的基本分类法开始,包括自然人、组织和法人。由于“法律实体”一词在律师和LEI(法律实体标识符)社群中有不同含义,FIBO弃用了该术语,并为LEI定义了“有合同能力实体”这一与司法管辖区相关的概念。模型还包括信托、基金、合伙企业和公司等实体类型,以及所有权和控制权层次结构关系。
- FIBO基础 构建“事物”的分类层次结构会导致抽象级别不断提高,从具体的金融工具类别一直到最顶层的“事物”类别。介于金融主题(如金融工具)和“事物”之间的类别称为“原型”(例如“合同”)。OWL中的属性分为两种:简单数据类型属性和关系属性(以“主体-谓词-客体”形式表示)。许多关于证券和衍生品的属性是参照金融领域之外的概念(如国家、地址、数学公式等)来定义的,因此需要一个真正有意义的模型来涵盖多个业务领域。
- 原型与分区 “原型”是指某类事物最一般的形式(如“合同”),具有该类事物必然具有的所有事实。FIBO参考了约翰·F·索瓦的“知识表示格”来组织“事物”之下的概念分区,用以区分具体与抽象事物、事件/活动与非时间性事物,以及相对于某些上下文定义的概念(如根据角色定义的各方)。
- 交易与REA本体 场外衍生品既可视为合同,也可视为交易。在建模过程中,FIBO团队遇到了专门处理交易的“资源-事件-代理”(REA)学术本体,并与之合作,探讨如何用OWL和FIBO建模框架来构建REA本体的语义。
- 法律与社会建构 在REA工作中,团队意识到需要对权利、义务和承诺等更基本的概念进行更形式化的处理。为此,他们参考了约翰·塞尔的“社会建构本体论”,以验证和增强法律与合同空间这部分基础模型的严谨性和细节。
- 操作本体 操作本体可视为语义技术中等同于传统开发中PSM的产物。它们从概念本体中提取所需术语,并根据应用程序性能约束进行简化和调整,用于具体的语义技术应用。
- 衍生品概念验证 由富国银行的David Newman团队进行的证明概念实验分为两个阶段:1)利率互换:使用FIBO OTC衍生品草案BCO,创建具有不同特征的互换模拟数据,在Protégé平台上使用“推理器”自动将实例数据分类到相应类别(如基差互换、交叉货币互换等),并整合了FpML消息数据和ISDA产品分类。2)结合FIBO商业实体术语:将商业实体模型与利率互换交易结合,使用SPARQL语义查询语言演示了跨所有权层次结构的传递性风险敞口和针对交易对手的聚合头寸等功能。
- 发现 通过概念验证发现,完整的FIBO BCO OWL文件对于单一操作用例来说过于庞大和笨重。因此,需要区分两种类型的FIBO本体:1)FIBO业务概念本体(BCO):完全基于法律和概念基础、明确定义术语含义的模型。2)操作本体:针对一个或多个特定用例的独立RDF/OWL应用程序,根据特定语义技术应用的设计约束(如使用OWL-DL)实施。操作本体可能只采用BCO中分类面的一个子集,形成单一的分类层次结构。
- 总结
- 操作层面(聚焦数据):操作本体从概念本体中提取所需术语,进行调整以适应性能约束,可用于基于推理器和语义查询的多种语义技术应用,在大数据环境中尤其有用,可以对数据进行推理、自动分类和语义查询。
- 概念层面(含义源于现实建构):概念本体是任何成熟数据密集型开发的基石,用于验证数据模型是否符合业务需求,也可用作“中心辐射”式集成映射的“中心”。即使BCO中的某些概念(如权利、义务)没有对应的物理数据,它们仍有操作价值,例如帮助区分不同数据源中语义不同的断言(如法律控制与实际控制)。
- OMG合作 2011年,EDM Council与OMG合作,将语义库作为名为FIBO的正式OMG标准推进。对现有模型进行了一些技术性调整,例如更新元模型以符合最新的OMG本体定义元模型标准,并将FIBO特有的特性(如原型、同义词、术语来源等)渲染为OWL注释属性。每个FIBO标准包括完整的正式文档和机器可读文件(OWL和XMI)。FIBO本体采用高度模块化结构,允许提取子集、重用其他领域的现有本体,并包含符合性要求和派生操作本体及传统数据模型的指南。
- FIBO标准路线图 以表格形式列出了FIBO规范计划发布的主题领域及其预计的评审和正式发布季度(部分日期待定),包括:基础、商业实体、证券、衍生品、贷款、市场数据、指数与指标、基金、公司行动、投资组合与持仓(风险因子)、支付等。
- 总结与结论 本章总结了FIBO作为行业资源,旨在以严谨、形式化的方法解决数据集成、映射和对账中的语义问题。基于语义网原则和标准开发,为操作语义技术应用开辟了道路。其提供的无歧义共同含义和新型语义技术应用对于系统性风险管理具有价值。在大数据环境中,语义索引或“三元组存储”格式能实现更有效的数据使用和重用。语义不仅从业务角度(作为数据的CIM)是必要的,在未来也将变得更加普遍。
