欢迎来到天天文库
浏览记录
ID:10906769
大小:26.50 KB
页数:6页
时间:2018-07-08
《浅论一种医疗本体语义相似度算法的设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、浅论一种医疗本体语义相似度算法的设计摘要:由于目前检索技术效率低下,所以需要一种基于本体的检索技术来提高效率。语义相似度计算是基于本体的检索技术的一个关键问题。本文对已有语义相似度计算方法进行总结并改进,最后对其进行分析。 关键词:本体;本体检索;语义相似度计算 1引言 随着Internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日Berners-Lee在国际XML2000的会议提出SemanticWeb(语义网)的构想[1]。在SemanticWeb
2、中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。 关于语义的相关性,国内外专家已经做了大量的工作:Resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre等在利用WordNet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。LiSujian等提出了一种词语语义相似度的计算方法,计算过程综合
3、利用了《知网》和《同义词词林》。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。 本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。 本体与领域本体 本体(Ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。 本体的概念 目前对本体的定义有很多,专家们认为由Studer等人在
4、1998年提出的“本体是共享概念模型的明确的形式化规范说明。[3]”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。 概念化:指通过抽象得出客观世界中一些现象(Phenomenon)的概念模型。 明确:指所使用的概念及使用这些概念的约束都有明确的定义。 形式化:指本体是计算机可读的(即能被计算机处理)。 共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。 2.本体的分类
5、 Guarino[5]在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application)Ontologies共4类。其中: 顶级Ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的Ontologies都是该类Ontologies的特例。 领域Ontologies描述的是特定领域中的概念及概念之间的关系。 任务Ontologies描述的是特定任务或行为中的概念及概念之间的关系。 应用Ontologies描
6、述的是依赖于特定领域和任务概念及概念之间的关系。 本文主要就是基于领域Ontology来设计与研究语义相似度计算方法。 语义相似度计算 语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。 语义相似度计算原则 语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的[2],其内容如下: 量化原则:相似度是一个数值,取值范围应该在[0,1]之间[3],如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。 简单性原则:计算相似度
7、的同时应该考虑计算复杂度[4],复杂度应该尽量降低。 充分利用本体的特性。 可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况[2]。 类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。 对称性:Sim(C1,C2)=Sim(C2,C1),对称性有利于概念相似度之间的对比与换算。 3.相似度计算方法 本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,sub
8、ClassOf:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:C0是C1,C2的父类,而C1与C2则是C0的子类。 利于OWL语言构建此本体的代码片段,如下: …… …… 语义距离:是两个概念在本体树中的最短距离,记作Distant(A,B)。①语义距离越
此文档下载收益归作者所有