欢迎来到天天文库
浏览记录
ID:6103584
大小:402.60 KB
页数:10页
时间:2018-01-02
《一种基于多策略本体匹配方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、http://www.paper.edu.cn一种基于多策略的本体匹配方法孙艳霏大连海事大学,大连(116026)E-mail:jeanie611@yeah.net摘要:目前本体匹配的方法很多,本文将这些方法分为基于本体概念结构的、定义的和实例的,还有多策略结合的四类的方法。为了帮助用户从各种本体匹配方法中选择最有效的策略来匹配本体,本文提出了一种对本体匹配策略进行评估推荐的框架,从而提高本体匹配的效果。关键词:本体,本体匹配,语义相似度,本体映射。中图分类号:TP3111.引言近年来,本体作为领域知识结构化的重要手段已经获得了广泛的认可。由
2、于本体的构造是一个非常费时费力的过程。因此一个用户为满足自己的不同需要而建立多个不同的本体是不现实的,那么同一领域内就存在多个本体的信息重叠。为了查询到准而全的信息,就要实现本体间互操作,本体匹配是有效的解决方法。目前本体匹配的方法繁多,但是从使用本体信息的角度,可以分为基于本体概念、本体定义和本体实例的本体匹配,多策略本体匹配方法的组合。匹配方法数量很多时,对用户来说也很难选择,所以又产生了对本体匹配方法进行评估推荐的方法,它可以提高本体匹配的效果。2.本体匹配的定义[1]本体的匹配是发现两个不同本体之间语义映射关系或相似程度的过程。同一个
3、领域可能采用相同的概念表示不同的含义,或者用不同的概念表示相同的含义。由于个人的差异,多个人在建立相同领域本体时,可能存在多种问题,从而产生多个信息重叠的本体。如:(1)同意属性的命名不同。例如:本体O1中的属性“邮编”与本体O2中的属性“邮政编码”是相同的属性,但命名不同;(2)相同属性定义域不同。例如:本体O1的邮编的定义域可能是270000-270050,本体O2的邮政编码的定义域可能是100001-100080;(3)同类值的表示方式不同。例如:O1的距离用“x公里”表示,O2的距离用“y英里”表示。(4)相同的值含义不同。例如:“山
4、.高度=很高”不同于“建筑物.高度=很高”,这与人的主观认识有关,在不同的领域有不同的参照标准。因此,这就需要本体匹配来解决这些由于各种差异原因而出现的问题,本体匹配的目的就是找到这些本体之间的语义映射关系,其中最简单的就是1:1的映射关系。-1-http://www.paper.edu.cn3.已有本体匹配工具词典实例文本集领域约束匹配算法匹配器n匹配器1本体源组合映射关系过滤建议用户冲突映射检查图1本体匹配系统的基本框架图1为目前本体匹配系统的基本框架,输入本体源,结合实例文本集、词典和领域约束,通过各种匹配器和组合过滤计算出建议,映射模
5、块与用户交互检查冲突,并反馈到匹配算法,最后输出本体映射关系。从使用本体信息的角度,可以分为基于本体概念定义、概念结构和实例的本体匹配。3.1基于概念定义的本体匹配方法基于概念定义的本体匹配方法是一种采用自然语言处理技术进行本体匹配的方法,它用于计算本体中单个实体(entity)与单个实体之间的名字、标签以及注释的相似性。目前使用得比较多的是基于字符串处理的方法和基于词典的方法。基于字符串处理的方法主要有编辑距[2]离、单词前后缀的相似性等等。基于词典的方法主要采用现成的词典(如:WordNet)识别出词们之间是否近义,是否存在上下位关系等等
6、。目前几乎所有的本体匹配工具都会采用自然语言处理的相关技术,或单独使用其中的一种技术或综合多种技术。[3]Cupid是一种一般的Schema匹配工具,其使用了字符串和词典两种技术对Schema进行语言学上的匹配。它首先对Schema中元素的名称进行相应的字符串处理(分词、去词缀、扩展缩写单词等)并在处理过程中使用词典作为处理的参考,然后通过字符串比较计算儿素之间的相似度,在比较的过程中使用词典查找词汇间的同义和上下位关系。[4]OLA是一种针对OWLLite所表示的本体进行匹配的工具,它综合使用了字符串距离和词汇距离来比较计算两个URIref
7、的相似度。其中词汇距离的计算是基于WordNet的。给-2-http://www.paper.edu.cn定两个待比较的词汇,将他们各自的同义词形成两个同义词集,然后计算这两个集合的规格化的Hamming距离,从而得到这两个词的词汇距离。[5]S-Match主要面向概念层次结构的本体,计算其中两个概念之间的逻辑关联。它综合采用了多种自然语言处理技术,包括基于字符串处理的方法(词缀处理、编辑距离、N-gram等),基于词义的方法(WordNet、层次距离等)和基于注释的方法(WordNet注释、注释比较等)等。[6]ASCO是由法国INRIA研
8、究所开发的一个本体匹配工具。其主要思想是在匹配过程中尝试使用包含在本体中的所有可能的信息,如:本体的数据实例、概念和关系(relation)的信息、概念和关系的层次
此文档下载收益归作者所有