【本体匹配:搭桥异构本体】同课异构
随着语义网的发展,本体正在大量涌现。由于互联网的分散特性,相关领域的不同本体之间存在异构性。本体匹配旨在架起异构本体间的桥梁,它是语义网环境下数据集成与管理的重要途径。
语义网数据集成与
管理的重要途径
在过去近10年时间里,随着工作的深入,语义网已经越来越受到关注,并蓬勃发展起来。
本体(ontology)是语义网中数据的主要表达方式。现实世界中,本体已经无处不在,并在诸如数据库集成、P2P系统、电子商务、Web服务、社会网络等众多应用中扮演着至关重要的角色。
但是由于Web具有分散性(decentralization),所以对于相交领域(甚至是相同领域),总会存在多个本体,导致不同本体之间存在差异,称为异构性(heterogeneity)。对于使用异构本体的互联网应用程序而言,本体匹配(ontology matching)为它们之间的交互提供了一种互操作性(interoperability)。这种互操作性使得这些应用程序间可以实现诸如信息集成和分布式查询处理等功能。
本体匹配对于实现数据的互联网(语义网)而言是至关重要的,它是未来互联网环境下的数据集成与管理的有效途径。在不久的将来,存储在互联网上的数据将逐渐由纯文本文档及存储在关系数据库中的数据(称为“deep Web”),向基于本体的管理方式转变,无论是本体、还是基于本体的应用都将大幅增长,因此本体匹配作为语义关联分散本体的基础技术,将不可或缺。除此之外,本体匹配和计算机学科中的众多其他研究方向也起着相互促进、共同发展的作用,例如目前的生物信息学、自然语言理解等诸多研究方向。
核心算法
目前,已有大量的研究人员对本体匹配这一研究课题进行了广泛而深入的研究,提出了很多各具特色的本体匹配方法。通常这些本体匹配方法都遵循附图中的框架。
下面介绍5个具有代表性的本体匹配核心算法。
● 美国斯坦福大学和德国莱比锡大学S. Melnik等人联合提出的SF算法。该算法基于图的相似性传播思想: 如果两个概念的邻居节点匹配,则这两个概念也很可能匹配。
● 希腊雅典理工大学G. Stoilos等人提出的I-Sub算法。本体包含人类可读并可理解的描述信息,例如书名等。I-Sub采用了一种基于字符串比较的方法,从术语学的角度进行本体匹配。与同类算法比较,I-Sub方法具有更好的鲁棒性。
● 东南大学瞿裕忠等人提出的V-Doc算法。本体可以被看成是带标签的有向图结构即RDF图。图中的每个节点不是独立存在的,还连接到其他多个节点。通过为本体中的概念(例如书名、作者等)构建虚拟文档,在考虑概念自身描述信息的同时,还考虑图中邻居节点所包含的描述信息,以体现概念在上下文中的含义。最终,通过向量空间模型的方法,完成本体匹配。该方法由于考虑了上下文信息,因此匹配效果较好。
● 荷兰阿姆斯特丹自由大学Z. Aleksovski等人提出的基于背景知识的算法。此方法经常能够发掘出一些深层次的复杂匹配结果。
● 东南大学胡伟等人提出的PBM算法。PBM方法采用了分而治之的思想,先把每个大本体分别划分为规模较小的片段,再通过预先找到的锚点,发现片段之间的匹配关系,从而使得已有的本体匹配算法可以直接作用于这些小的片段对,实现大本体匹配。
系统简介
本体匹配系统是基础匹配算法的集成。目前比较成熟的本体匹配系统包括: 德国莱比锡大学开发的COMA++系统、东南大学开发的Falcon-AO系统以及清华大学开发的RiMOM系统。
● COMA++是目前最完备的匹配工具之一,它组合多种匹配算法来解决现实世界的匹配问题。在执行过程中,COMA++将输入模型(如本体)统一转换为有向无环图的数据结构,应用不同匹配算法,将各算法产生的临时匹配结果以矩阵的形式存储在知识库中,通过采用不同的组合策略,生成最终匹配结果并输出。另外,其较好的人机交互界面使得系统易于操作。
● Falcon-AO的最新版本0.7版中包括5大模块: 本体模型池、匹配结果集、匹配算法库、中央控制器及外部存储数据库。测试结果表明,Falcon-AO表现出色且稳定快速。另外,Falcon-AO目前是一个开源项目。
● RiMOM是基于最小风险本体映射模型开发的本体匹配系统。它采用贝叶斯决策理论,将映射发现问题转化为风险最小化问题。RiMOM的执行流程包括: 用户交互、匹配算法执行、多策略匹配结果组合以及最终匹配结果发现。该系统的另一个特点是可以发现多对多的匹配结果。
总结与展望
从历史观的角度看,人类认识世界的一个重要手段就是比较。本体匹配的核心即比较,它是比较在语义网环境下的一种新形式。早在本体匹配问题提出之前,就已有大量的关于纯文本匹配、数据库(或XML)模式匹配等相关研究,这些研究对于本体匹配的研究有很大的借鉴作用。但是本体匹配问题本身也有其独特之处。例如,由于本体具有显式的语义,所以在匹配过程中,应该从语义的角度进行匹配,而不是仅仅从语法的角度; 本体是对领域的建模,所以本体的规模较大,而且对于相交的领域,可能存在多个本体,数量也较多。在匹配过程中,应当充分考虑速度、自动化程度和可视化等方面的内容。
虽然本体匹配的研究和应用逐渐成为一个热点,但是其本身仍是一个新兴的课题,依然存在许多有待解决的挑战。总结起来有以下4个方面: (1)自动化的匹配算法精度不够,离实际应用还存在较大距离; (2)目前的匹配算法只能构建比较简单的匹配,还不能发现更加丰富的匹配; (3)在纯文本、数据库或XML向本体过渡的过程中,本体和其他形式的数据模型之间的匹配,也需要考虑; (4)通过本体匹配,构建查询重写、数据集成等上层应用,还需要进一步研究。
正如荷兰阿姆斯特丹自由大学的F. van Harmelen教授在接受德国著名IT杂志C’T采访时所说,以本体匹配为代表的语义网技术是一种基础设施技术,它是存在于背后、并非用户直接可见的。而作为用户,所能感受到的是网站变得更人性化、搜索引擎结果的分类更好了等等。可以预见,本体匹配等技术将使未来的互联网更加智能、更加丰富多彩。
