基于P2P网络爬虫设计------爬行模块设计.doc

基于P2P网络爬虫设计------爬行模块设计.doc

ID:10494292

大小:545.50 KB

页数:62页

时间:2018-07-07

基于P2P网络爬虫设计------爬行模块设计.doc_第1页
基于P2P网络爬虫设计------爬行模块设计.doc_第2页
基于P2P网络爬虫设计------爬行模块设计.doc_第3页
基于P2P网络爬虫设计------爬行模块设计.doc_第4页
基于P2P网络爬虫设计------爬行模块设计.doc_第5页
资源描述:

《基于P2P网络爬虫设计------爬行模块设计.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于P2P网络爬虫设计——爬行模块设计摘 要网络爬虫是一种能够自主采集Web页面内容的程序。随着数据量的爆炸性增长,传统的网络爬虫已经越来越不能满足人们不断增长的信息获取需求。随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的网络爬虫并迅速成为研究热点。本课题采用P2P网络计算,用并行编程来实现网络爬虫。课题分为爬行模块和控制模块两大部分。爬行模块实现单个爬行结点的基本功能,主要是根据URL队列,从Internet下载网页。本论文分为四个章节,从技术背景、系统设计、代码实现、实例展示等方面,详细地阐述了爬行模块的开发目的、开发

2、技术和开发过程。关键词:网络爬虫;多线程;哈希表AbstractTheWebCrawlerisonekindoftheprocedurebeingabletocollectWebpageoffacecontentautonomously.Withtheexplosivegrowthofthedata,traditionalwebcrawlerbecomehardertocatchupwiththegrowingstepofpeople’sinformationneeds.Withtherapiddevelopmentofpeer-to-peer(P2P)techno

3、logy,thenotionofP2PWebCrawlerhasbeenproposedandquicklybecomesaresearchfocus.ThissubjectadoptsP2Pnetworkswithparallelprogrammingtorealizewebcrawlers.Subjectisdividedintocrawlermoduleandcontrolmodule.Thecrawlermodulecrawlingrealizesthebasicfunctionofsinglenode,mainlybasingontheURLqueuedo

4、wnloadspagefromInternet.Thispaperisdividedintofourchapters,fromtechnicalbackground,systemdesign,detaileddesign,softwaretesting,etc,andexpoundsthedevelopmentpurposes,developmenttechnologyandthedevelopmentprocessofthecrawlermodule.Keywords:thewebcrawler;Multi-thread;Haxitable目 录第1章绪论11.1

5、爬虫技术背景11.1.1网络爬虫的工作原理11.1.2网络爬虫的搜索策略11.1.3超文本传输协议简介21.1.4开发工具和开发语言介绍21.2目前该技术的应用现状以及存在的问题和缺陷111.2.1超链分析算法的应用与发展121.2.2传统的集中式网络爬虫向分布式网络爬虫的发展131.2.3传统的通用网络爬虫向面向主题网络爬虫的发展131.3论文的主要内容和特点141.4论文组织结构14第2章总体设计与实现152.1需求分析152.2系统设计152.2.1爬行模块的功能设计162.2.2爬行模块的流程设计172.2.3爬行模块与控制模块的协工作182.3代码实现19

6、2.3.1Page类的实现202.3.2UrlManager类的实现262.3.3Spider类的实现302.3.4其它模块382.4小结42第3章实例展示433.1实例的软件硬件环境433.2爬行模块测试433.3集成测试48第4章总结与展望504.1本文所解决的问题504.2对爬虫的将来提出展望504.2.1质量和性能方面504.2.2个性化服务方面51参考文献52致谢54CONTENTSChapterI:Introduction11.1BackgroundoftheWebcrawlertechnology11.1.1Webcrawleroperatingpri

7、nciples11.1.2SearchstrategyoftheWebcrawler11.1.3BriefintroductiontoHTTP21.1.4Introductiontodevelopmentaltoolsandlanguages21.2Currentstatusofthistechnology,itsproblemsandshortcomings111.2.1Hyperlinkanalysisalgorithem:applicationanddevelopment121.2.2Changeoftraditionalcrawlerfromcentra

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。