欢迎来到天天文库
浏览记录
ID:30019987
大小:606.50 KB
页数:63页
时间:2018-12-26
《基于P2P网络爬虫设计——爬行模块设计---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文基于P2P网络爬虫设计——爬行模块设计TheDesignofWebCrawlerforPeer-to-peer——TheDesignofCrawlerModule姓名:学号:系:软件工程专业:软件工程年级:指导教师:年月1摘 要网络爬虫是一种能够自主采集Web页面内容的程序。随着数据量的爆炸性增长,传统的网络爬虫已经越来越不能满足人们不断增长的信息获取需求。随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的网络爬虫并迅速成为研究热点。本课题采用P2P网络
2、计算,用并行编程来实现网络爬虫。课题分为爬行模块和控制模块两大部分。爬行模块实现单个爬行结点的基本功能,主要是根据URL队列,从Internet下载网页。本论文分为四个章节,从技术背景、系统设计、代码实现、实例展示等方面,详细地阐述了爬行模块的开发目的、开发技术和开发过程。关键词:网络爬虫;多线程;哈希表1AbstractTheWebCrawlerisonekindoftheprocedurebeingabletocollectWebpageoffacecontentautonomously.Withth
3、eexplosivegrowthofthedata,traditionalwebcrawlerbecomehardertocatchupwiththegrowingstepofpeople’sinformationneeds.Withtherapiddevelopmentofpeer-to-peer(P2P)technology,thenotionofP2PWebCrawlerhasbeenproposedandquicklybecomesaresearchfocus.ThissubjectadoptsP
4、2Pnetworkswithparallelprogrammingtorealizewebcrawlers.Subjectisdividedintocrawlermoduleandcontrolmodule.Thecrawlermodulecrawlingrealizesthebasicfunctionofsinglenode,mainlybasingontheURLqueuedownloadspagefromInternet.Thispaperisdividedintofourchapters,from
5、technicalbackground,systemdesign,detaileddesign,softwaretesting,etc,andexpoundsthedevelopmentpurposes,developmenttechnologyandthedevelopmentprocessofthecrawlermodule.Keywords:thewebcrawler;Multi-thread;Haxitable1目 录第1章绪论11.1爬虫技术背景11.1.1网络爬虫的工作原理11.1.2网络爬虫
6、的搜索策略11.1.3超文本传输协议简介21.1.4开发工具和开发语言介绍21.2目前该技术的应用现状以及存在的问题和缺陷111.2.1超链分析算法的应用与发展121.2.2传统的集中式网络爬虫向分布式网络爬虫的发展131.2.3传统的通用网络爬虫向面向主题网络爬虫的发展131.3论文的主要内容和特点141.4论文组织结构14第2章总体设计与实现152.1需求分析152.2系统设计152.2.1爬行模块的功能设计162.2.2爬行模块的流程设计172.2.3爬行模块与控制模块的协工作182.3代码实现19
7、2.3.1Page类的实现202.3.2UrlManager类的实现262.3.3Spider类的实现302.3.4其它模块382.4小结42第3章实例展示4313.1实例的软件硬件环境433.2爬行模块测试433.3集成测试48第4章总结与展望504.1本文所解决的问题504.2对爬虫的将来提出展望504.2.1质量和性能方面504.2.2个性化服务方面51参考文献52致谢541CONTENTSChapterI:Introduction11.1BackgroundoftheWebcrawlertechn
8、ology11.1.1Webcrawleroperatingprinciples11.1.2SearchstrategyoftheWebcrawler11.1.3BriefintroductiontoHTTP21.1.4Introductiontodevelopmentaltoolsandlanguages21.2Currentstatusofthistechnology,itsproblemsandshortcomings1
此文档下载收益归作者所有