主题爬虫搜索策略研究

主题爬虫搜索策略研究

ID:36790914

大小:2.59 MB

页数:64页

时间:2019-05-15

主题爬虫搜索策略研究_第1页
主题爬虫搜索策略研究_第2页
主题爬虫搜索策略研究_第3页
主题爬虫搜索策略研究_第4页
主题爬虫搜索策略研究_第5页
资源描述:

《主题爬虫搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕士学位论文主题爬虫搜索策略研究姓名:陈丛丛申请学位级别:硕士专业:计算机软件与理论指导教师:石冰20090405山东大学硕士学位论文摘要随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎己经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网

2、络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。再次,本文提出了HITS改进算法Topic.HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。最后,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同

3、的搜索阶段选择采用符合实际情况的最优搜索策略。本研究采用改进的肿S算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。实验结果表明,在此系统上不仅能够准确、自动地爬行到主题相关网页,而且还可节约网络带宽,具有良好的稳定性。关键词:主题搜索引擎:爬行策略;爬行算法;内容分析;链接分析山东大学硕士学位论文ABSTRACTWiththegrowthofdiversifiedWebinformation,thetraditionalsearchengines,namely,generalsearchengineshavebeenunabletosatisfy

4、people’Spersonalizedinformationretrievalservice.Inrecentyears,thetopic-orientedsearchenginecameintobeinginordertoprovidemorecomprehensiveandaccuratedata,lowertimecomplexityofInteractsearchservicesInthesubjectsearchengines,whichsearchstrategyWebspidersUSetOvisitWebefficientlyisoneofhotissuesinthestu

5、dyofsearchenginesinrecentyears.Thedynamic,heterogeneousandcomplexnatureofnetworksdemandWebspidertocrawlWeblinkinformationefficiently.Firstofall,basedondomesticandinternationalnetworkresearchprogress,basedontheanalysisandcomparisonoftheexistingsearchstrategy’SadvantagesanddisadvantagesofWebspider,th

6、ispaperdiscusstheaccuracyandimportanceoftopicvaluepredictiontoWebdocuments.Secondly,asthecoreofatopicsearchstrategyofWebspider,thisarticaldetailedintroducetheexpressionoftOpicinformationandrelevancealgorithmbetweentopicandWebpage.Forthepagerelevancejudgement,vectorspacemodelwhichiscurrentlymoreconl

7、nlonlyisused.Thirdly,thispaperpresentsenhancedHITSAlgorithm,thatisTopic—HITS,putthetopiccharacteristicsintoHITSalgorithm,analyzethelinkstructureofWebpagesfromthetopicwhichisamoredetailedparticle,foreachpage

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。