欢迎来到天天文库
浏览记录
ID:34226586
大小:1.35 MB
页数:49页
时间:2019-03-04
《基于网站自描述数据垂直搜索引擎地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、华中科技大学硕士学位论文摘要随着Internet技术的不断发展特别是网络搜索引擎技术的发展,用户想要得到自己需求的网络链接成为越来越容易的事情。近几年,越来越多的领域搜索成为网络搜索引擎的又一新兴方向,它们关注于某一领域,可以给用户一个连续高效的综合性搜索结果,称之为垂直搜索引擎。传统搜索引擎不接受来自网站的任何数据,把网站放在弱势的对立面,并完全忽略了网站渴望被了解的心情,搜索引擎这样做是基于可靠第一的想法。目前主流垂直搜索引擎也都没有接受网站数据的功能,所以提出了垂直搜索引擎利用来自网站的自描
2、述性数据来提取网站文本中的知识。基于此想法,网站向搜索引擎发送网站自身的知识结构,搜索引擎利用此知识结构作为数据容器来解析网站文本,从而减少搜索引擎工作量。网站只要向搜索引擎发送自身描述数据为搜索引擎所用,那么搜索引擎就可以跳过对网站文本进行知识聚类等处理活动,而直接从网站文本中提取知识,提高自身的工作效率及获得更为准确的知识。具体实现过程包括以下三个步骤:搜索引擎对网站提交作出规范和引导;网站向搜索引擎发送自身描述性知识结构数据;搜索引擎以网站描述性数据为“数据容器”提取网站知识。这一方法实施后
3、,搜索引擎绕过了知识聚类这一步骤,因而可以提高引擎的爬行效率并且会得到更高质量的知识。通过在模拟环境下的实验,证实会议搜索引擎作为垂直搜索引擎特例,可以利用网站关于自身知识的会议描述数据进行知识的提取。关键词:垂直搜索引擎,数据容器,网络爬虫,网站自描述数据I华中科技大学硕士学位论文AbstractWiththecontinuousdevelopmentofInternettechnology,especiallywebsearchenginetechnology,itiseasierthatth
4、eusergettingtheirnetworkconnections.Inrecentyears,moreandmorespecialwebsearchenginescomeout,thattheypaycloseattentiontoaparticularfield.Thiskindofenginecangivetheuseracontinuousandconstructiveefficientandcomprehensivesearchresults,andthiskindofsearche
5、ngineiscalledverticalsearchengine.TraditionalsearchenginesdonotacceptanydatafromtheWebsite,puttingsitesontheoppositeside,sothesitehascompletelyignoredthefeelingsofdesiretobebrowsed.Atpresent,theverticalsearchenginedidnotreceivewebsitedatatoo,therefore
6、,DesigntheMethodstoextractknowledgeofthetextthatusingself-describingdataofwebsites.Basedonthisidea,thismethodisdiscussedthatsearchenginereceivetheself-descriptiondatafromthesites,andthenusethedatastructureasadatacontainertoanalysiswebsite,sothroughthe
7、methodtoreducetheirownworkloadandtoimproveanalyticalquality.Sothesearchenginemusttoregulateandguidethesitestosubmitthecorrectknowledgestructure.WiththeNormsandGuideformthesearchengine,websitecorrectlysenttotheengineoftheknowledgestructure.Searchengine
8、basedontheknowledgestructuretomatchthetext.Concreterealizationoftheprocessincludingthefollowing:searchenginemadetheregulateandguideforthesites;Websitesendsthedescriptivedataabouttheknowledgestructuretosearchengine;Searchenginetodescribethedata
此文档下载收益归作者所有