网络爬虫效率瓶颈的分析与解决方案

网络爬虫效率瓶颈的分析与解决方案

ID:5344662

大小:399.77 KB

页数:5页

时间:2017-12-08

网络爬虫效率瓶颈的分析与解决方案_第1页
网络爬虫效率瓶颈的分析与解决方案_第2页
网络爬虫效率瓶颈的分析与解决方案_第3页
网络爬虫效率瓶颈的分析与解决方案_第4页
网络爬虫效率瓶颈的分析与解决方案_第5页
资源描述:

《网络爬虫效率瓶颈的分析与解决方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第28卷第5期2008年5月·计算机应用ComputerApplicationsV01.28No.5May2008文章编号:1001—9081(2008)05—1114—03网络爬虫效率瓶颈的分析与解决方案尹江,尹治本,黄洪‘(西南交通大学信息科学与技术学院,成都610031)(j_yeen@163.corn)摘要:网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之

2、外,还需要优化网络爬自身的设计,改进网络爬虫自身的结构,消除效率瓶颈。通过对网络爬虫结构、应用环境以及用户要求的分析,提出一个通用网络爬虫的改进设计方案,并通过实验得到较好的测试结果。关键词:爬行策略;套接字;多线程;网络爬虫中图分类号:TP311文献标志码:AEfficiencybottlenecksanalysisandsolutionofWebcrawlerYINJiang,YINZhi—ben,HUANGHong(SchoolofInformationScienceandTechnolog

3、y,SouthwestJiaotongUniversity,ChengduSichuan610031,China)Abstract:Theefficiencyofawebcrawlerdeterminesthequalityofservicesawebsearchingsystemofferstoitsusers.HowtodesignamoreefficientandfasterwebcrawleriSbecomingahotissueintheresearchofwebcrawler.Inor

4、dertoraisethecrawlingefficiencyofawebcrawler,thecrawlingstrategyneeds.tobereformed.Besides,thedesignofthewebcrawlersystemhastobeoptimizedanditsstructurealsoneedstobeimprovedtoeliminatebottlenecks.Inthispaper,animprovedschemeofdesigningageneralwebcrawl

5、erWaspresentedthrovlghanalyzingcrawler'sstmcture,applicationenvironmentanduserrequirement,andthepreferabletestingresulthasprovenbetterefficiencyithas.Keywords:crawlstrategy;socket;multi—thread;Webcrawler网络爬虫是搜索引擎的重要组成部分。目前爬虫系统的基本设计原则为:在遵循REP原则以及对服务器不造

6、成致命冲击的前提下‘¨,尽可能使爬虫爬行速度快、数据下载量大及信息抓取准确。必须要消除制约爬虫自身爬行效率的瓶颈,使爬虫达到高效。1网络爬虫简介通用网络爬虫爬行的基本策略是将Internet视为一幅复杂的有向图。利用这样的模型,网络爬虫可以采用图的广度优先搜索算法或图的深度优先搜索算法爬行Interact并下载数据。。1.1广度优先、深度优先爬行策略一个网页即为一个节点,网页中指向其他页面的URL为该节点到其他节点的路径,整个Internet由大量这样的节点构成一幅庞大的有向图G(E,y),如图1

7、所示。图1Intemet的有向图模型不意图其中矩形代表页面,箭头线为URL,该图显示了网页间相互链接的关系。无论是广度优先还是深度优先策略,其时间渐近复杂度都为0(e+。),其中”,e分别为图的节点与边的数量,即与Internet中的网页规模直接相关。上述爬行策略对各个网站、页面和URL的价值回报并不评估筛选,爬行速度快但针对性较差,不能提高搜索的查准率。1.2基于价值回报的爬行策略网络爬虫理想的设计是高速、完整地遍历整个Intemet。往往需要对单纯的图算法爬行策略进行改进,合理地对资源(网站、

8、页面及URL)进行价值评价,优先处理值高的资源,滞后处理甚至忽略价值低的资源。目前实际应用的策略主要有:基于链接自身质量评价的PageRank算法以及HITS算法、基于URL主题相关性评价的BestSearch算法及Fish算法等忙1。除此以外机器学习理论、人工神经网络算法、蚂蚁算法等方法也在不断地应用到网络爬虫寻路优化策略中"1。2爬虫的瓶颈分析与解决方案2.1效率瓶颈分析爬虫的效率主要受到以下因素的制约:网络延时和爬虫本地运行效率,如图2所示。图2网络爬虫的效率瓶颈示意网络爬虫

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。