欢迎来到天天文库
浏览记录
ID:29698054
大小:2.33 MB
页数:55页
时间:2018-12-22
《分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计TheDesignandImplementationofDistributedWebCrawler——DistributedAlgorithmResearchandSystemArchitectureDesign姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要随着网络技术的发展,Web上的信息海量增加,人们对信息的需求也不断加大,使得专门负责Web信息采集的网络爬虫技术面临着巨大的挑战。集中式的单机网络爬虫由于运行效率低、搜索时间长等缺点在很多情况下已经难当重任,分布式
2、网络爬虫以其单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的需求。本文通过对分布式网络爬虫相关知识和技术的研究,设计了一个以中心化拓扑结构为基础的分布式网络爬虫架构,其中一台主机作为控制中心节点,多台主机作为爬行节点,在局域网中连接,由控制中心节点进行任务分配,协调调度多个爬行节点并行爬取网页信息。通过对任务分配策略和分配粒度的研究,系统采用二级哈希映射的任务分配算法实现了分布式系统的协调机制,在控制中心节点的协调下,多个爬行节点避免重复爬行,均衡全面地采集网页信息。最终开发实现了一个容错能力强、负载均衡,爬行性能良好的分布式网络爬虫系统原型程序
3、。并对其进行了详细的测试评估,实验结果验证了分布式网络爬虫的可行性和高效性。关键词:分布式系统;网络爬虫;任务分配AbstractWiththedevelopmentofnetworktechnology,Webinformationincreaserapidly,atthesametimepeople'sinformationneedshavealsoincreased,sothenetworktechnologyofWebCrawlerisfacedwithenormouschallenges.becauseofAsingleWebCrawlerhassomedisad
4、vantage,suchaslowoperatingefficiency,longsearchtimeetc.ItisdifficulttocrawlthewholeWebascomprehensiveaspossibleforasingleCrawler.DistributedCrawlercanrunmorethanoneCrawlertocrawltheWebinformationconcurrently,soDistributedCrawlersovletheproblemoftheincreasingWebinformationondemand.Basedonth
5、eknowledgeandtechnologyofdistributedcrawlerresearch,thispaperdesignthearchitectureofDistributedCrawlerwithcenterofatopology-basedincludingonePCasthecontrolcenter,morethanonePCascrawlingnodeswiththeLANconnected.Nodesfromthecontrolcenterfordistributionoftasks,coordinationofschedulinganumbero
6、fparallelcrawlingnodeinformationfromthepage.Thispaperalsostudythestrategyoftaskallocationanddistributionofparticlesize,achieveadistributedsystemcoordinationmechanismswithtwo-levelhashtaskdistributedalgorithm.Ultimately,thispaperintroducehowtodevelopabalanced,comprehensive,strongandefficien
7、tDistributedCrawlertocollectWebpagesfromtheInternet.Keywords:DistributedSystem;WebCrawler;TaskAllocation目 录第一章引言11.1课题研究背景及意义11.2本文主要工作内容21.3论文组织结构3第二章分布式网络爬虫相关知识42.1搜索引擎工作原理42.2分布式与集中式网络爬虫62.2.1集中式网络爬虫62.2.2分布式网络爬虫72.2.3分布式系统的优缺点82.3分布式网络爬虫研究现状9第三章分布式网络爬虫系统架构
此文档下载收益归作者所有