欢迎来到天天文库
浏览记录
ID:36832474
大小:3.65 MB
页数:86页
时间:2019-05-16
《基于本体的语义网爬虫的算法研究和应用实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要语义网是在万维网的基础上进行扩展形成的。语义网对网络中的数据加入语义信息以帮助语义网应用能够在语义层面对数据进行理解并进行处理。近些年,语义网飞速发展,符合语义网标准的语义信息数量迅速增长,对这些信息进行有效的处理和解析可以为用户提供高质量的服务。语义搜索引擎就是这样的一个典型的语义网应用,它充分利用语义信息,将语义信息有效的组织并提供给用户进行语义相关的查询。而语义专题搜索引擎则更加充分的发挥了语义信息的特点,利用语义分析将主题相关的信息进行组织和检索,最终为用户提供准确的搜索结果。在
2、语义专题搜索引擎框架中,语义专题爬虫是重要的部件之一。它负责搜集与主题相关的语义信息并对其进行初步的处理,例如语义信息的分类、存储以及元数据的抽取等。语义专题爬虫面临的问题是,如何在海量的语义信息中准确高效的获得与主题相关的语义资源。语义专题爬虫需要对语义信息进行内容判断、计算语义信息与主题的相关性、筛选与主题相关的信息并保存到数据存储中。同时,语义专题爬虫的效率也是相关研究的主要内容之一。因此,针对语义专题爬虫的准确性和效率问题,本文分别提出了相应的方法予以解决。对于语义信息内容的主题相关性判
3、断问题,本文提出了判断语义文档的主题相关度的方法。方法将语义文档和领域本体表示为图形结构并通过计算图形结构之间的相似度来判断文档的主题相关度。在优化语义专题爬虫的效率方面,本文提出了Q学习结合贝叶斯分类器的路径预测算法(以下简称QBLP算法),QBLP算法通过计算页面主题相关度来作为Q学习器的回报函数,并利用回报函数对贝叶斯分类器的先验概率和条件概率进行调整,使先验概率和条件概率逐步趋近于真实值,以此来提高爬虫获取主题相关语义文档的性能。除了对算法进行研究,本文基于上述算法实现了语义专题爬虫FO
4、CSEW系统。论文在以下方面作了有益的探索和创新性工作。(1)基于最大概率密度的聚类方法。在语义文档的图形表示方法中,为了对语义文档中的所有代表实体的关键词进行语义消歧并组织成图形结构,本文提出了基于最大概率密度的聚类方法。一个关键词可以包含多重概念,关键词和其在具体文档中概念的对应关系具有一定的概率性。最大概率密度就是一种包含了这样的概率信息的语义距离衡量标准。本文以最大概率密度为基础进行基于密度的聚类形成簇,再将簇中的所有概念连接形成的图形结构作为语义文档的内容表示。(2)针对语义专题爬虫的
5、路径调整算法进行了分析和阐述。面对大量位置分散的语义文档,对文档内容的分析以及爬行路径的预测和筛选显得非常重要。本文提出了利用WordNet本体作为指导的语义文档图形表示方法,方法可以准—————~~~———————~——北京jr业人学一r’学硕’f:学伉论文确的将语义文档的内容表示为图形结构。在此基础上,本文提出了由Q学习器通过学习为贝叶斯分类器提供先验概率的QBLP爬虫路径调整算法。QBLP方法通过累计语义文档和语义链接特征的知识,调憋爬虫爬行路径,提高爬虫的性能。这个目标在实验中得到了验证
6、。本课题是在语义网搜索引擎研究框架下的重点模块之一。语义专题爬虫主要的目标是搜集与主题相关的语义文档供用户通过语义搜索引擎进行查询。本文对与主题相关的语义资源进行搜索和筛选,对于信息的集成和检索有着积极的意义。实验证明本文阐述的算法以及实现的语义专题爬虫系统FOCSEW可以高效的搜索相关语义资源,为语义搜索引擎系统奠定了数据基础。关键词语义网;专题爬虫;本体AbstractSemanticWebiStheextensionofWorldWideWeb.DocumentinsemanticWebc
7、ontainssemanticinformationwhichhelpstoanalyseandprocessdatafromadifferentaspect.Semanticwebisdevelopingrapidduringtheseyears,andquantityofsemanticdocumentisgrowingaswell.Howtoprocessandparseinformationisawayofimprovingservicequality.Semanticsearcheng
8、ineissuchanapplicationwhichtakesadvantageofsemanticinformationtomanagedocumentsandreturnresulttouser’Squery.Semanticverticalsearchenginefilterthemerelateddocumentawayfromothersandprovidesaccuratesemanticinformation,whichisbeenprocessedandindexed,ofac
此文档下载收益归作者所有