基于语义万维网的智能化检索的研究

基于语义万维网的智能化检索的研究

ID:34841558

大小:1.35 MB

页数:48页

时间:2019-03-12

基于语义万维网的智能化检索的研究_第1页
基于语义万维网的智能化检索的研究_第2页
基于语义万维网的智能化检索的研究_第3页
基于语义万维网的智能化检索的研究_第4页
基于语义万维网的智能化检索的研究_第5页
资源描述:

《基于语义万维网的智能化检索的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、天津大学硕士学位论文第一章绪论有一段差距。现有的传统搜索引擎存在着很多缺陷,主要体现在以下方面:·传统的搜索引擎都是基于关键词处理的。只通过关键词进行匹配,会遗漏大量与检索概念相关或同义的内容。检索的查准率和查全率都不能得到保证;·目前的信息检索功能,只能搜索到网页中直接表达的内容,难以进行推理、实现间接的信息内容检索,也就是说,检索的智能化程度较低;·信息检索的粒度过大、精度较低,无法实现问答式查询。总之,在信息快速增长的今天,传统信息检索机制缺乏必要的智能性,因而难以适应时代发展的需要。上述问题的根源在于传统的的搜索引擎都是基于关键词的语法匹配处理的

2、。因此,解决问题的关键在于把信息检索从基于关键字的语法匹配转移到基于知识层面的语义匹配上来,本文的主要研究目的就是将语义网技术应用于检索过程中,赋予其语义内涵,来解决传统信息检索过程中所存在的问题,提高检索的查准率和查全率。.从上面的阐述可知,“智能信息检索”研究具有深远的研究意义和非常广阔的应用前景。本文在前人的研究基础上,主要研究以下几个方面:●据凹厨廊副Z网矽磐锫篪寓忿雾蒹纺穆酱。借助于本体和搜索引擎等技术,提高对网络上的信息进行智能检索和导航能力。通过把本体理念引入语义网的信息检索系统中,采用本体对信息进行语义处理,使智能检索变得更加容易;●语义

3、7疗欲劈毋多瑷疗语义相似度的研究是智能化检索的重要内容,其解决概念间相似性难以量化计算的问题。通过计算概念间的语义距离,从而在扩展待查询概念集时能够做出定量判断,避免概念的无限扩展,是实现智能推理的重要基础;●考戈查询彩历矽乱针对现有传统搜索系统只能通过关键字匹配进行查询的缺点,本文将本体引入查询,建立推理查询,将基于关键字的语法查询转化为基于语义网本体的语义匹配上来,从而提高了检索的查全率和查准率;·基于零筋的智膨纪盘煮彩莠统露刃。作为对本文的理论性验证,利用J哪API和RDQL开发了基于本体的智能化检索系统,该系统主要涉及基于语义相似度的概念扩展和语

4、义推理查询功能的实现。‘1.3论文组织全文共分为五章。天津大学硕士学位论文第一章绪论第一章着重阐述论文研究的现实背景意义,明确本课题主要研究内容并提出本文的组织结构。后面的第二章讲述了语义万维网的框架体系,在着重讲述了语义万维网的相关概念、组成和体系结构之后,分析了信息检索的分类和研究现状,接着简要介绍了语义万维网在智能化检索中的应用。在前面两章的基础上,本文第三章提出了基于语义网的智能化检索系统的系统架构,并着重针对该架构中的相似度计算和语义查询等关键模块,做出了详尽解释。第四章则是本文的理论性验证,在前面理论分析的基础上,介绍了检索系统的开发,并演示

5、了系统所实现的功能。第五章则是对全文工作的总结,指出并分析了未来重点研究方向,并对未来发展前景做出了展望。天津大学硕士学位论文第二章语义万维网与本体论自T细Bemers.Lee于1998年提出语义W曲(SemanticW曲)的概念之后,语义Web就一直成为人们讨论与研究的热点。语义Web研究活动的目标是开发一系列计算机可理解和可处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理。而语义网的核心一本体则因为具有良好的概念层次结构和支持知识的推理,因而在近一、二十年来,逐渐被计算机领域采纳,并用于知识的表达、共享及重用。本章主要讨论语义网的相

6、关概念、组成和体系结构,以及本体在信息检索中的应用。2.1语义网和本体论2.1.1语义万维网一、语义万维网的概念起源万维网创始人TunBemers.Lee将万维网的演化分为两个阶段【3】,在第一个阶段,万维网应该是一个有利于人们相互合作的强大工具。万维网最初十年的发展基本上实现了这个目标:它以HTML页面的方式向人提供了大量的信息。在第二个阶段,这种合作应该延伸到机器。也就是说,连接到万维网上的机器也应该能够分析万维网上的所有数据—包括内容、链接以及人与机器之间的交互。如何实现万维网的第二阶段目标正是目前学术界研究的热点。实现这一目标的难点在于传统的Hn

7、他语言本身的固有缺陷,这种标记语言的标签集只是对内容的显示格式做了标记,数据的表现格式和数据糅合在一起,缺乏针对数据内容的标签【4】。HTML语言的这种特点决定了万维网上的信息内容很难被机器所理解,从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发。例如:搜索引擎很难在查准率和查全率这两方面有所突破,搜索到的页面也只是和搜索关键字相匹配的页面,造成一方面遗漏大量内容相关的页面,另外一方面找到太多不相关页面【5】.一些对万维网页面内容的提取程序只能针对特定站点的固定格式,从中提取一些感兴趣的信息,如果站点的格式稍有变化,内容提取程序也要做相应的

8、调整【6】。虽然近年来在自然语言处理(NLP)【7】、机器学习等领域对文本内容的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。