一种分布式聚焦型爬虫系统的设计与实现

一种分布式聚焦型爬虫系统的设计与实现

ID:23943079

大小:1.58 MB

页数:62页

时间:2018-11-11

一种分布式聚焦型爬虫系统的设计与实现_第1页
一种分布式聚焦型爬虫系统的设计与实现_第2页
一种分布式聚焦型爬虫系统的设计与实现_第3页
一种分布式聚焦型爬虫系统的设计与实现_第4页
一种分布式聚焦型爬虫系统的设计与实现_第5页
资源描述:

《一种分布式聚焦型爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号学号M201476054学校代码10487密级硕士学位论文一种分布式聚焦型爬虫系统的设计与实现学位申请人:黄林波学科专业:软件工程指导教师:陆永忠副教授答辩日期:2016.12.16AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringDesignandImplementationofaKindofDistributedFocusedCrawlerSystemCandidate:HuangLinboMajor:S

2、oftwareEngineeringSupervisor:AssociateProf.LuYongzhongHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaDecember,2016独创性声明本人声明所a交的学位论文是我个人在碲师指琦f进行的研穴T-作及取得的研究成果?尽我所知,除文中己经私明引用的内容外?本论文不极含任柯萬他个?人或槊体己经发衣或撗写过的研宂成縱?对本文的研宄微出贞献的个人和集体嫌由本人承析?均已在文中以明确方式标明?本人究全意识剴

3、本声明的法镎纳学位论文作#签名H期*月M曰#学位论文版权使用授权书本学位论文作者完全了解学校有关保留*使用学位论文的规定?即:学校冇权保留并向国家有关部门或机构送交论文的复印件和电子皈?允许论文被旬均'华中科技大学可以将本学位论文的全部或部分内鞞编入有关数据借阅.^人授权库进行检索、缩印或扫描等复制手段保存和汇编本学位论文??可以采用影印保密□,在年解密后适用本授权书.本论文属f,不保密贫.“”(消在以上方框祕彳)学位沦文作者签名》:指导教师签名??H期:w飧年li月?口日期:年

4、4月各>0华中科技大学硕士学位论文摘要在互联网技术飞速发展的时代,大量的信息在互联网上创造和产生,用户对于关键信息的检索需求越来越高,是否能够快速的从互联网上检索出关键信息,决定了一家互联网公司能否在这一波互联网大潮中筑稳基石。本文基于互联网的检索需求,结合系统稳定性和高产出比,提出了一种分布式聚焦爬虫的实现方案,该方案着眼于企业对特定互联网信息的搜集,建立了一种高效可行的爬虫系统,以有限的计算机资源实现大量的信息爬取工作。分布式聚焦爬虫系统首先从企业的需求出发,经过详细的需求分析和性能分析,在现有技术之上,对系统的各个模块进行了划分,并

5、且针对具体的模块提出了创新性的设计,使用Python作为主要的开发语言,实现了Master-Slave体系结构的分布式技术,由于本文的用户群体主要是旅行服务类公司,爬虫聚焦于爬取酒店、机票、火车票、大巴票的官网数据,以XPATH和正则表达式结合的方式来解析抓取到的网页数据,在解析过程中,以逻辑代码与配置文件相结合的方式,创造性的提高系统的高内聚低耦合性,通过定义爬虫返回状态码并统计一段时间的数据,作出爬虫系统的爬取状态图,从而定位到爬虫系统的具体的问题,再对这些问题进行针对性的解决,有效的提升了爬虫系统的稳定性,实现了爬虫实现与优化的一体化设

6、计。在Master-Slave分布式技术的实现上,采用了线程池技术来控制每一个Slave机器所能开启爬虫的数量,大大的提高了爬出系统的抓取效率,对于Slave服务器的设计则是利用定时器自动重启的功能来避免内存泄漏,从系统的层面上提高了系统的稳定性。本文所设计的分布式聚焦爬虫系统在企业上得到了具体的应用,在稳定性得到一定满足的情况下,以最大的产出比来爬取旅行类网站的数据,通过对最终解析的结构化数据的使用,实现了较大的企业利润。关键词:聚焦型爬虫Master-Slave体系分布式系统系统稳定性I华中科技大学硕士学位论文AbstractInthee

7、raofrapiddevelopmentofInternettechnology,AlargeamountofinformationiscreatedandproducedontheInternet.Thedemandforkeyinformationretrievalishigherandhigher.WhetherthekeyinformationcanberetrievedquicklyfromtheInternet,DetermineswhetheranInternetcompanycanbuildastablefoundationi

8、nthiswaveoftheInternet.ThispaperisbasedontheInternetsearchdemand,Combinedwithsyste

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。