资源描述:
《基于本体的关系数据库关键词语义查询扩展方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于本体的关系数据库关键词语义查询扩展方法*国家自然科学基金(60773100),国家“十一五”科技支撑计划(2006BAK05BO2),河北省自然科学基金(F2009000475)。郗君甫,刘国华,唐军军,祁瑞丽,朱鹤(燕山大学信息科学与工程学院,河北秦皇岛066004)摘要:目前关系数据库关键词查询技术主要利用关键词的语法匹配,而没有利用数据之间的语义关系进行匹配,导致查询效果往往都不太令人满意。为了改善查询效果,结合本体概念,提出了基于本体的关系数据库关键词查询的语义查询扩展方法,把用户提交的查询关键词扩展为基于本体的语义关键词。实例分析表明,扩展后的语义关键词尽可能符合用
2、户的真实意愿。关键词:关键词;本体;概念树;语义相似度中图分类号:0引言关系数据库上的关键词查询[1-4]已成为数据库和信息检索领域的研究热点之一。关系数据库关键词查询(KeywordQueryOverRelationalDatabases,KQORD)使得用户通过提交查询关键词来访问关系数据库,而无需了解数据库模式,也不用懂得书写SQL查询,也不需要学习和使用关系数据库的定制的查询界面。一般是基于关系数据库管理系统(RDBMS)提供的全文检索技术来实现的。这种访问方式仅仅采用语法匹配,而没有利用数据之间的语义关系(如同义词、上下位、转喻等)进行语义匹配,导致它们的查询效果(查全
3、率和查准率)不太令人满意。在信息检索领域,为解决这一问题,目前多采用查询扩展技术。查询扩展(QueryExpansion,QE),是公认的能够有效提高查全率的技术之一,其基本思想是利用与查询关键词相关的词语对查询进行修正和补充,以便找到更多的相关文档,提高查全率。然而在提高查全率的同时难以保证查准率[5],根本原因在于,人们在现实生活中描述同样的对象或事件的用词存在多样性。为了解决这个问题,人们提出了基于本体的语义查询扩展方法,用概念来描述查询主旨,找到与查询语义相关的概念进行扩展[6],筛选出那些语义相似度超过系统设定阈值的概念形成新的查询关键词(语义关键词),此方法可有效的提
4、高查询结果的查全率,并改善查准率[7]。为了改善KQORD的查询效果,把信息检索领域的查询扩展技术应用到KQORD技术中,提出了基于本体的关系数据库关键词查询的语义查询扩展方法,把用户提交的查询关键词进行语义查询扩展,将其扩展为基于本体的语义关键词。实例分析表明,扩展后的语义关键词尽可能符合用户的真实意愿。将该方法应用到目前的关系数据库查询技术中,可使得KQORD转换成基于本体的关系数据库语义查询,为KQORD提高查询效果提供了一条新的方法和途径。1基本定义所谓本体,通俗地讲,是用来描述某个领域甚至更广范围内的概念以及概念之间的关系,是概念和概念之间的集合[8]。目前,本体已经被
5、广泛应用于语义网、知识工程、信息检索以及信息集成等方面。本体可表示为O(Cg,Rg,Hg),其中Cg是概念全集,即本体中的所有概念的集合,记为Cg{C1,C2,…,Cm},Rg是概念和概念之间的关系集合,Hg是层次集合。一个领域本体可能会有很多层次结构(如父子关系、部分关系、相关关系等),而父子关系是本体的最重要的层次结构,也是基于本体的查询处理最主要的层次结构[9]。父子关系是一个偏序的关系,具有传递性、自反性、反对称性等特点。如图1所示,ACMClassificationSystem1998分类系统作为计算机领域本体来描述DBLP数据库中的Papers表的Title属性,是一
6、个父子关系的层次结构。把本体看作概念树Ct(O),如图1所示的概念树的根为最抽象的概念C(Root)。相关定义如下(定义8和定义12引自[10]):定义1:关系数据库模式假设关系数据库的模式,Sdb=(R,FK),R={R1,R2,…,Rk}是一组关系模式,FK是R中关系模式间引用关系的映射,FK:R®R,如果FK(Ri)=Rj,记为Ri®Rj(1£i,j£n),它表示Rj一个外键引用了Ri主键。定义2:数据库模式图假设Gs=(V,E)表示模式Sdb=(R,FK)的关系数据库DB对应的模式图。Gs是一个有向图,将DB中的每一个关系模式Rk(1£k£n)看作是Gs的一个顶点,当且仅
7、当关系模式RiÎGs,关系模式RjÎGs,(Ri®Rj)ÎFK时,(Ri,Rj)ÎE。定义3:连接元组树给定一个关系数据库DB的模式图Gs=(V,E),T是以DB中的元组tl为结点的一棵树,其中tl(1£l£m)是关系rk(1£k£m)中元组,关系rk(1£k£m)是关系模式Rk(1£k£n)上的实例,如果(Ri,Rj)ÎE且(titj)Î(rirj),那么,(ti,tj)是T的一条边,其中tiÎri,tjÎrj,(1£i,j£n),称T为一棵连接元组树。定义4:关键词查询把关键