web主题信息检索中的语义检索技术研究及应用

web主题信息检索中的语义检索技术研究及应用

ID:33257728

大小:8.21 MB

页数:63页

时间:2019-02-23

web主题信息检索中的语义检索技术研究及应用_第1页
web主题信息检索中的语义检索技术研究及应用_第2页
web主题信息检索中的语义检索技术研究及应用_第3页
web主题信息检索中的语义检索技术研究及应用_第4页
web主题信息检索中的语义检索技术研究及应用_第5页
资源描述:

《web主题信息检索中的语义检索技术研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆交通大学硕士学位论文Web主题信息检索中的语义检索技术研究及应用姓名:谢剑芳申请学位级别:硕士专业:管理科学与工程指导教师:何友全20120327摘要随着互联网的不断壮大,WEB已成为当今最大的信息载体,是人们获取信息的主要来源。信息检索技术作为人们获取信息的最主要的手段之一已得到了迅速的发展,但日益增长的网络信息资源,使得人们准确检索的需求并不能得到很好的满足,同时,WEB信息也无法被自动处理和有效利用。其中,最主要的原因在于:过大的资源基数使得通用检索系统返回的信息广而不精,且主题漂移现象频繁

2、出现,用户将浪费较多的时间和精力来获取有用信息;另一方面,语义孤岛现象,即网络信息异构、服务异构以及人机理解的差别使得检索系统的有效召回率和召回精度都大打折扣。作为语义网核心的本体技术承担着语义表达的重要责任,通过本体支持语义,支持人机之间的交流,从而实现机器智能,为Web的发展带来了新的契机。本体在主题搜索引擎中的应用,必将对信息检索系统的易用性和效率产生极大的改进,从而最大程度迎合用户的检索需求。基于此,本文设计并构建了一个基于本体的主题信息检索原型系统,力求一定程度上提高信息的有效利用率和检索系

3、统的效率。主要研究内容和创新有如下几个方面:①构建了一个计算机技术领域中文本体。在现有本体理论、构建方法和技术的基础上,综合应用需求,对传统的本体建模方法进行了改进和完善。一方面,为确保概念的质量,本文综合筛选科研文献关键词、分类主题词表和一些通用知识库中的概念;另一方面,以应用需求为导向,明确本体构建目的,一定程度上减少了细节的干扰。基于此,论文设计并半自动构造了一个计算机技术领域的中文本体,并进行了相关查询实验,为进一步基于本体的语义信息检索应用研究做铺垫。②基于本体的查询扩展实现。基于关键词匹配

4、的通用搜索引擎无法应付语义孤岛现象,因此,我们采用概念匹配,即对其进行语义扩展,以求解决相关、相似的信息由于主题词表达方式的不同而无法被系统检索和返回。本文的查询扩展主要是基于概念间的关联程度。鉴于两个概念之间的关联度不仅与其概念之间定义的内在关系(包括公有属性等)有关,还与其在本体树中的分布距离相关,也即由结构内和结构外两因素主导,前者简称为相关度,后者为相似度。本文在现有相似度算法研究基础之上,综合需求,对最终概念关联算法进行了改进,并以此设计和实现了一个适合本文原型系统的扩展算法。③基于本体的主

5、题信息检索原型系统的设计与构建。包括本体查询子系统和Web主题语义检索系统两大模块。一方面,为了方便用户对领域概念和知识系统进行了解和随时查询,同时也为规范主题信息检索系统中查询的概念表述,论文设计并构建了一个简单的本体查询子系统,查询内容有本体概念、属性以及关系等,并以本体树的形式对本体进行整体表述。另一方面,在已研究实现的领域本体、概念相似度计算以及查询扩展模块的基础上,论文设计并成功实现了一个Web主题语义检索系统,以期改进通用搜索引擎的效率。为了验证改进算法的有效性以及检索系统的效率,文章最后

6、进行了对比实验,实验结果表明,基于本体的主题查询系统能很好的扩展并返回查询相关信息,一定程度上提高了基于关键词匹配检索系统的召回精度和召回率。关键词:语义网;本体;主题检索;语义相似度;查询扩展ABSTRACTWiththecontinuingdevelopmentofIntemet,Webhasbecomethelargestinformationcarrier,wherepeopleobtaininformationmainlyfrom.Currently,asoneofthemostimport

7、antmeansofobtaininginformation,informationretrievaltechnologydevelopedrapidly.Butwithgrowingwebinformationresources,thetraditionalsearchenginecan。tsatisfyusers’needswell,ormakeeffectiveutilizationoftheinformation.Themajorreasonsare:ononehand,massinforma

8、tionresourcebasemakequantityreturnswithlowprecision,whichmeansmuchtimeandenergywastedonsecondorevenmukipleinformationfilter;Ontheotherhand,isomerismofWebinformationanddifferentintellectlevelbetweenusersandmachinesleadtomeaningiso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。