欢迎来到天天文库
浏览记录
ID:11444860
大小:545.50 KB
页数:62页
时间:2018-07-12
《基于P2P网络爬虫设计------爬行模块设计.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于P2P网络爬虫设计——爬行模块设计摘 要网络爬虫是一种能够自主采集Web页面内容的程序。随着数据量的爆炸性增长,传统的网络爬虫已经越来越不能满足人们不断增长的信息获取需求。随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的网络爬虫并迅速成为研究热点。本课题采用P2P网络计算,用并行编程来实现网络爬虫。课题分为爬行模块和控制模块两大部分。爬行模块实现单个爬行结点的基本功能,主要是根据URL队列,从Internet下载网页。本论文分为四个章节,从技术背景、系统设计、代码实现、实例展示等方面,详细地阐述了爬行模块的开发目的、开发技术和开
2、发过程。关键词:网络爬虫;多线程;哈希表AbstractTheWebCrawlerisonekindoftheprocedurebeingabletocollectWebpageoffacecontentautonomously.Withtheexplosivegrowthofthedata,traditionalwebcrawlerbecomehardertocatchupwiththegrowingstepofpeople’sinformationneeds.Withtherapiddevelopmentofpeer-to-peer(P2P)technology,the
3、notionofP2PWebCrawlerhasbeenproposedandquicklybecomesaresearchfocus.ThissubjectadoptsP2Pnetworkswithparallelprogrammingtorealizewebcrawlers.Subjectisdividedintocrawlermoduleandcontrolmodule.Thecrawlermodulecrawlingrealizesthebasicfunctionofsinglenode,mainlybasingontheURLqueuedownloadspagef
4、romInternet.Thispaperisdividedintofourchapters,fromtechnicalbackground,systemdesign,detaileddesign,softwaretesting,etc,andexpoundsthedevelopmentpurposes,developmenttechnologyandthedevelopmentprocessofthecrawlermodule.Keywords:thewebcrawler;Multi-thread;Haxitable目 录第1章绪论11.1爬虫技术背景11.1.1网络爬虫
5、的工作原理11.1.2网络爬虫的搜索策略11.1.3超文本传输协议简介21.1.4开发工具和开发语言介绍21.2目前该技术的应用现状以及存在的问题和缺陷111.2.1超链分析算法的应用与发展121.2.2传统的集中式网络爬虫向分布式网络爬虫的发展131.2.3传统的通用网络爬虫向面向主题网络爬虫的发展131.3论文的主要内容和特点141.4论文组织结构14第2章总体设计与实现152.1需求分析152.2系统设计152.2.1爬行模块的功能设计162.2.2爬行模块的流程设计172.2.3爬行模块与控制模块的协工作182.3代码实现192.3.1Page类的实现202.3.2
6、UrlManager类的实现262.3.3Spider类的实现302.3.4其它模块382.4小结42第3章实例展示433.1实例的软件硬件环境433.2爬行模块测试433.3集成测试48第4章总结与展望504.1本文所解决的问题504.2对爬虫的将来提出展望504.2.1质量和性能方面504.2.2个性化服务方面51参考文献52致谢54CONTENTSChapterI:Introduction11.1BackgroundoftheWebcrawlertechnology11.1.1Webcrawleroperatingprinciples11.1.2Searchstrat
7、egyoftheWebcrawler11.1.3BriefintroductiontoHTTP21.1.4Introductiontodevelopmentaltoolsandlanguages21.2Currentstatusofthistechnology,itsproblemsandshortcomings111.2.1Hyperlinkanalysisalgorithem:applicationanddevelopment121.2.2Changeoftraditionalcrawlerfromcentra
此文档下载收益归作者所有