欢迎来到天天文库
浏览记录
ID:23471754
大小:142.50 KB
页数:6页
时间:2018-11-08
《基于编辑距离和wordnet的本体匹配算法研究与实现徐全发指导老师》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于编辑距离和WordNet的本体匹配算法研究与实现徐全发指导老师凌兴宏摘要:本体匹配旨在解决语义异构问题,实现不同本体的应用程序间的互操作性。基于编辑距离和WordNet的算法是本体匹配的一种简单综合方法。匹配中分别对两种算法给与不同的动态权值进行综合计算得出相似度。关键字:本体,本体匹配,编辑距离,WordNetAbstract:Theontologyistosolvethematchingsemanticheterogeneity,realizethedifferentontologybetweenapplicat
2、ionsinteroperability.BasedontheeditdistanceandWordNetalgorithmisakindofsimpleontologymatchingcomprehensivemethod.Matchingofthetwoalgorithmsaregivendifferentdynamicweightsofcomprehensivecalculatedsimilarity.Keyword:ontology,theontologymatching,editdistance,WordNet
3、0.引言本体(Ontology)源于哲学概念,从哲学范畴来说,本体是对客观存在的一个系统的解释和说明,关心的是客观现实的抽象本质[1]。学术界认可的一种定义是Gruber提出的“本体是概念模型的明确的规范说明”[2]。本体的目标是捕获相关领域的知识,确定该领域内共同认可的词汇,通过概念之间的关系来描述概念的语义,提供对该领域知识的共同理解。目前本体已被成功应用到万维网、人工智能等领域,在知识共享和传播中担当了重要角色。本体可以有效克服分布式应用间信息交换的语义异构问题[3]。然而本体的创建和使用具有主观性和自治性,即使在
4、同一领域也存在着大量语义相关而表示语言和模型不同的本体,这就是本体异构现象。解决本体异构已成为基于本体的应用面临的关键问题,本体匹配正是解决这一问题的有效途径。近年来,本体匹配方法研究已成为语义web领域的热点,国内外学者相继提出了各种匹配方法,包括基于文本、结构、实例的匹配方法和基于知识库的方法等。其中基于结构特征的本体匹配通过分析实体在模式中的位置比较周围节点的信息来计算相似度,该方法在本体缺乏充分的文本信息时尤为适用。在结构匹配方法中主要用到了图结构、路径结构、分类结构的匹配模式,这些方法大部分融入了相似度传播的思
5、想。此外为克服图形匹配中过分重视图结构而忽略语义特征的缺陷,结构方法中还补充了基于推理和定理证明的方法。然而目前的相似度计算方法大多需要遍历全图,计算所有实体间的两两相似度并选取相似度超过某一阈值的实体作为匹配对,这种算法工作量大而且带有盲目性,尤其当本体规模较大时计算复杂度也会大大增加。此外计算结构相似度时往往只考虑邻居节点的信息,而没有充分利用节点的上下文语义信息,使得相似度的值过分依赖于邻节点。0.本体匹配算法的研究1.1编辑距离方法通过编辑距离计算两个字符串之间的相似度是一种很常用的本体匹配方法。原字符串(s)编
6、辑距离表示的是两个字符串通过插入字符、删除字符、替换字符而变为相目标串(t)所需要的操作数。在本体匹配中,我们首先抽取两个待匹配本体中每一个实体的直接描述信息,通过计算这些描述信息之间的编辑距离来获得实体与实体之间的相似度。将编辑距离运用于相似度计算的公式如下[3]:其中:SS(s1,s2)表示两个字符串s1和s2之间的相似度;ed(s1,s2)表示字符串s1,和s2之间的编辑距离;s1.len和s2.len分别表示字符串s1和s2的长度。2.2WordNetl)Wu和Palmer的方法Wu所提出的概念语义相似度算法[4
7、]是基于is-a关系的,考虑了两个概念在树中的最近的公共父节点的深度以及两个概念之间的距离。对于同一个父节点,两个概念之间的距离越大,得到的相似度值越小;对于距离相同的两个概念,如果父节点的深度越大,则语义相似度越大。如下面公式所示:其中lso(c1,c2)指概念c1和c2最低的公共父节点,depth(c)表示概念c在WordNet中的深度,即从根节点entity到c之间的距离。2)Leacock和Chodorow的方法Leacock和Chodorow提出的语义相似度算法[5]是一种典型的基于路径的方法,此方法中,相似度
8、由两个概念之间的最短路径所决定,最后计算的结果在[0,l]范围内,具体如公式所示:其中len(cl,c2)表示概念c1和c2之间的最短路径,D表示WordNet中is-a分类树的最大深度。这两种算法共同的优点是模型简单,求解方便,实际中也得到广泛的应用。但是在计算距离的时候,所有相邻节点的距离都是等长的,没有考虑各边
此文档下载收益归作者所有