简单分析搜索引擎蜘蛛的爬取策略费下载

简单分析搜索引擎蜘蛛的爬取策略费下载

ID:46251972

大小:78.64 KB

页数:3页

时间:2019-11-22

简单分析搜索引擎蜘蛛的爬取策略费下载_第1页
简单分析搜索引擎蜘蛛的爬取策略费下载_第2页
简单分析搜索引擎蜘蛛的爬取策略费下载_第3页
资源描述:

《简单分析搜索引擎蜘蛛的爬取策略费下载》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、简单分析搜索引擎蜘蛛的爬取策略搜索引擎蜘蛛毎天是怎么样去爬収我们的网的呢?针对这些你有多少的了解?那搜索引擎蜘蛛的爬取过程又是怎么样的呢?在搜索引擎蜘蛛系统中,待爬取URL队列是很关键的部分,需要蜘蛛爬取的网页URL在其屮顺序排列,形成一个队列结构,调度程序每次从队列头取出某个URL,发送给网页下载器页面内容,每个新下载的页面包含的URL会追加到待爬取URL队列的末尾,如此形成循环,整个爬虫系统nJ以说是由这个队列驱动运转的。同样我们的网站每天都要经过这样一个队列,让搜索引擎进行爬取的。那么待爬取URL队列屮的页而URL的排列顺序是如何来确定的呢?上而我们说了将

2、新下载页面中的包含的链接追加到队列尾部,这固然是一种确定队列URL顺序的方法,但并非唯一的手段,事实上,还可以采纳很多其他技术来实现,将队列屮待爬収的URL进行排序。那么究竟搜索引擎蜘蛛是按照什么样的策略进行的爬取呢?以下我们來进行更深入的分析吧。第一、宽度优化遍历策略宽度优化遍历是一种非常简单直观且历史很悠久的遍历方法,在搜索引擎爬虫一出现就开始釆用了。新提出的抓取策略往往会将这种方法作为比较基准,但应该注意到的是,这种策略也是一种相当强悍的方法,很多新方法实际效果不见昨比宽度优化遍历策略好,所以至今这种方法也是很多实际爬虫系统优先采用的爬取策略。网页爬取顺序

3、基木是按照网页的重要性排序的。Z所以如此,有研究人员认为,如果某个网页包含很多入链,那么更有可能被宽度优化遍历策略早早爬到,而入链这个数从侧血体现了网页的重要性,即实际上宽度优化遍历策略隐含了一些网页优化级假设。PageRank是一种著名的链接分析算法,可以用来衡量网页的重耍性。很口然地,nJ以想到JIJPageRank的思想來对URL优化级进行扌非序。但是这里冇个问题,PageRank是个全局性算法,也就是说当所有网页下载完成后,其计算结果才是可靠的,而爬虫的目的就是去下载网页,在运行过程中只能看到一部分页而,所以在爬取阶段的网页是无法获得町靠的PageRan

4、k得分的。对于已经下载的网页,加上待爬取的URL队列屮的一URL—起,形成网页集合,在此集合内进行PageRank计算,计算完成之后,将待爬取URL队列里的网页按照按照PageRank得分由高低排序,形成的序列就是爬虫接下来应该依次爬取的URL列表。这也是为何称之为“非完全PageRank”的原因,。第三、OPIC策略(OnlinePageImportanceComputation)OPIC的字面含义是“在线页面重婆性计算”,可以将其看做是一种改进的PageRank算法。在算法开始之前,毎个互联网页血都给予和同的现金,每当下载了某个页面P后,P就将自己拥有的现金

5、平均分配给页面屮包含的链接页面,氢自己的现金清空。而对于待爬取URL队列中的网页,则根据其于•头拥有的现金金额多少排序,优先下载现金最充裕的网页,OPIC从大的框架上与PageRank思路基木一致,区别在于:PageRank每次需要迭代计算,而OPIC策略不需要迭代过程。所以计算速度远远快与PageRank,适合实时计算使用。同时,PageRank,在计算时,存在向无链接关系网页的远程跳转过程,而OPIC没有这一计算因子。实验结果表明,OPIC是较好的重耍性衡量策略,效果略优于宽度优化遍历策略。第四、大站优化策略大部优化策略思路很直接:以网站为单位來选题网页重要

6、性,対于待爬収URL队列中的网页根据所属网站归类,如果哪个网站等待卜•载的页面最多,则优化先卜•载这些链接,其本质思想倾向于优先下载人型网站。因为人型网站往往包含更多的页面。鉴于人型网站往往是著名金业的内容,其网页质量--般较高,所以这个思路虽然简单,但是有一定依据。实验表明这个算法效果也要略优先于宽度优先遍历策略。第五、网页更新策略互联网的动态是其就著特征,随时都冇新出现的页面,页面的内容被更改或者木来存在的页面删除。对于爬虫来说,并非将网页抓取到本地就算完成任务,也耍体现出互联网这种动态性。本地下载的网页可被看做是互联网页的镜像,爬虫要尽可能保证英一致性。可

7、以假设一种情况:某个网页已被删除或者内容做出重人变动,而搜索引擎对此惘然无知,仍然按具旧有内容排序,将其作为搜索结果提供给用记,其用户体验度之糟糕不言而喻。所以对于已经爬取的网页,爬虫还要负责保持英内容和互联网页面内容的同步,这取决于爬虫所彩用的网页更新策略。网页更新策略的任务是要决定何时重新爬取之前己经下载过和网页,以尽可能使得本地下载网页和互联网原始页血内容保持-•致。常用的网页更新策略有三利U历史参考策略,用户体验度策略和聚类抽样策略。(1)什么是历史参考策略?历史参考策略是最直观的一种更新策略,它建立于如下假设Z±:过去频繁更新的网页,那么将來也会频繁更

8、新,所以为了预估某个网页

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。