分布式在线图书爬虫系统的设计与实现

分布式在线图书爬虫系统的设计与实现

ID:35105463

大小:7.30 MB

页数:97页

时间:2019-03-18

分布式在线图书爬虫系统的设计与实现_第1页
分布式在线图书爬虫系统的设计与实现_第2页
分布式在线图书爬虫系统的设计与实现_第3页
分布式在线图书爬虫系统的设计与实现_第4页
分布式在线图书爬虫系统的设计与实现_第5页
资源描述:

《分布式在线图书爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-:公开学校代码:10004密级如丢、交道义爹BEIJINGJIAOTONGUNIVERSITY硕±专业学位论文分布式在线图书爬虫系统的设计与实现作者姓名郭一峰工程领域软件工程指导教师王方石教授.^培养院系软件学院^与许J至二班―.-r-I垣恩强!课决11遲r:;托如'交4乂肇硕±专业学位论文分布式在线图书爬虫系统的设计与实现DesignandImplementationofDistributedOnlineBook

2、CrawlerSystem作者一:郭峰导师:王方石北京交通大学2016年6月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可W将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供査阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟髙校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说

3、明)学位论文作者签名:导师签名:签字曰期;月,日签字曰期;年月fZ曰年2_/^学校代码:10004密级:公开北京交通大学硕±专业学位论文分布式在线图书爬虫系统的设计与实现DesignandImlementationofDistributedOnlineBookCrawlerpSys化m一141261作者姓名;郭峰学号:09导师姓名;王方石职称:教授王程硕±专业领域:软件工程学位级别:硕±北京交通大学2016年6月i致谢

4、时光飞逝,我短暂而宝贵的研究生生涯即将结束。两年的研究生生活,不但。使我在学术上收获颇丰,也为我W后的发展打下了坚实的基础在这里首先要感。谢我的导师王方石教授,是她对我的耐也指导,才使得论文可W顺利完成在恩师口下的时光,她那深厚扎实的学术功底、治学严谨的工作态度和谦虚谨慎、温文尔雅的人格魅力时时熏陶着我,令我终身受益。千言万语都无法表达我对恩师的感激之情,只有W后在工作中更加努力才能不辜负恩师的教导和希冀。同时我还要感谢与我同窗两年的同学们,尤其是赵保森和韩雪明,谢谢他们对我生

5、活和学习上的关也与帮助。感谢我的父母对我多年的关爱与悉也栽培,感谢他们对我无私的付出。。感谢我实习公司的同事们,谢谢他们对我的耐必指导与帮助感谢北京交通大学所有传道授业、辛勤工作的老师们,感谢你们这两年对我的谱啓教导。最后,衷也感谢所有关也、支持和帮助过我的人们。出^摘要在这个互联网时代,电子化的产品已经深入到生活的方方面面,各种纸质的图书也同时被各种格式的电子书所取代。只需下载到手机或者其他移动终端里,即可进行阅读。但是在众多的圍书之中如何进行选择,,如

6、何大规模获取图书资源一个图书爬虫就显得非常重要。i本论文设计和实现分布式在线團书爬虫系统,采用了Scarpy架构,并通过Reds作为URL缓存队列进行分布式扩展,使爬虫的效率大大的提升,对Redis进行商可用配宣,提升系统商可用性,并能够完成増量爬取,保证对于图书的更新能够一第时间掌握。通过对图书网站的业务层面的分析和根据使用者的特点,完成需求分析,系统共分为调度器模块,URL爬取模块,流水线模块,监控模块等几个主要模块:,作者对这几个模块进行设计,并完成了如下几个模块(1)调

7、度器模块,包括URL调度,URL去重等功能,主要实现了对URL按照安全哈希算法进行去重和按照URL的优先级进行爬取,并通过Redis实现了爬虫的分布式。(2)URL赔取模块,通过分配给它的URL,下载对应的页面,并对这个页面进行解析,对于提取到的URL,继续发送给URL缓存队列,并把页面里面的国一片。、文件、围书详细信息等各种要爬取的信息发送给流水线进行下步处理(3)流水线模块,对于URL爬取模块传递给它的信息进行规范化,通过不同的流水线进行存储,把图片、文件、图书详细信息这些

8、数据传到不同的存储单元中去。(4)监控模块,对每个爬虫的状态进行监疫,监控毎个爬虫所爬取的URL,数量,爬虫的运行情况,爬虫运行了多长时间并监控每个爬虫所在设备的状态。通过功能验证表明新的Scrapy肥虫系统满足分布式图书爬虫系统的要求,能一阶段会对够对分布式图书网站进行有效的爬取,现在项目还是在测试阶段,下。图书内容和图书的插图等信息进行监控,完成对在线困书网站的监控和甄别从一个更为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。