分布式书籍网络爬虫系统的设计与实现

分布式书籍网络爬虫系统的设计与实现

ID:37333474

大小:5.15 MB

页数:59页

时间:2019-05-22

分布式书籍网络爬虫系统的设计与实现_第1页
分布式书籍网络爬虫系统的设计与实现_第2页
分布式书籍网络爬虫系统的设计与实现_第3页
分布式书籍网络爬虫系统的设计与实现_第4页
分布式书籍网络爬虫系统的设计与实现_第5页
资源描述:

《分布式书籍网络爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP301.6国际图书分类号:681.14西南交通大学研究生学位论文密级:公开坌查盛盘箍圆络爬虫丕统的遮i土皇塞堡年姓专二。一四年四月ClassifiedIndex:TP301.6U.D.C:681.14SouthwestJiaotongUniversityMasterDegreeThesisDesignandImplementationofDistributedBooksWebCrawlerSystemGrade:2011Candidate:ZhaoPengchengAcadem

2、icDegreeAppliedfor:MasterSpeciality:ComputerApplicationTechnologySupervisor:TaoHongcaiApril,2014西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文

3、属于1.保密口,在年解密后适用本授权书;2,不保密√,使用本授权书。(请在以上方框内打“√”)学位论文作者签名:起印谗彳毫指导老师签名日期:2014年多月)∥白日期:2014西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:第一,对各种网络爬虫框架进行对比研究。最后选择Scrapy网络爬虫框架进行深入研究,设计并实现了新的调度器模块,使其具有分布式爬取功能。第二,设计并实现书籍网络爬虫。将书籍的名称、作者、内容、封面这些信息作为一个完备的书籍数据项进行爬取。第三

4、,设计并实现了数据流水线。将爬取得到的书籍信息进行分布式存储,将爬取得到的书籍文件存储在文件系统中。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:红卅色辱日期:归/纯f,>矿西南交通大学硕士研究生学位论文第1页摘要互联网技术高速发展,人们的生活方式也发生

5、了改变。以往读书只能买纸质书,现在其传播媒介发生了改变,电子书很大程度上替代了纸质书。然而,互联网上书籍很多,而且增长迅速,如何从互联网中快速地选择出对自己有用的书籍尤为重要。本文设计并实现了一个基于Scrapy框架的分布式书籍网络爬虫系统DScrapy,实现了对互联网上书籍信息与书籍文件的下载,对爬取得到的数据进行分布式存储。将从互联网上爬取得到的信息存入MongoDB中,可以方便地对下载的书籍进行操作。首先,对Scrapy开源网络爬虫框架进行深入研究。针对它只能单机爬取的不足,设计了新的调度器

6、模块替换掉原有调度器,使其可以进行主从式分布式爬取。然后设计了针对书籍爬取的流水线,其中包括书籍封面存储模块、书籍信息存储模块以及书籍文件存储模块。其次,完成了分布式书籍网络爬虫DScrapy系统的实现。在以上的设计工作基础上进行了具体代码编写与测试工作,其中包括:先确定采用Linux系统作为开发平台:网页信息提取方面使用XPath技术来实现;然后使用Redis内存数据库存储URL队列;书籍信息存储使用MongoDB进行分布式存储;书籍文件存储则采用GridFS来实现。再次,将本系统对实际网站进行

7、测试。测试结果表明该系统具有实用性,可以将大型爬取任务分散到各个节点,大幅度提高整个系统的爬取速度。最后,对本文的研究内容进行了总结,并展望了进一步的研究工作。关键词:分布式;书籍爬虫;Scrapy;数据存储西南交通大学硕士研究生学位论文第1I页AbstractAsInternettechnologyisdevelopingrapidly,people’Slifestylehasgraduallychanged.Previously,readingbookcallbeonlyacquiredbyp

8、rintedbooks.Butnowmediahavechanged.E—bookhasreplacedthepositionofprintedbooklargely.HoweveLthequantityofe-bookisgrowingrapidly.So,itisimportanthowtoselecttheusefulbookfromtheInternet.Thisthesisdesignedandimplementedadistributedwebbookscrawlers

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。