分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文

分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文

ID:29698054

大小:2.33 MB

页数:55页

时间:2018-12-22

分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文_第1页
分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文_第2页
分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文_第3页
分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文_第4页
分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文_第5页
资源描述:

《分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文分布式网络爬虫的设计与实现——分布式算法研究和系统架构设计TheDesignandImplementationofDistributedWebCrawler——DistributedAlgorithmResearchandSystemArchitectureDesign姓名:学号:学  院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要随着网络技术的发展,Web上的信息海量增加,人们对信息的需求也不断加大,使得专门负责Web信息采集的网络爬虫技术面临着巨大的挑战。集中式的单机网络爬虫由于运行效率低、搜索时间长等缺点在很多情况下已经难当重任,分布式

2、网络爬虫以其单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的需求。本文通过对分布式网络爬虫相关知识和技术的研究,设计了一个以中心化拓扑结构为基础的分布式网络爬虫架构,其中一台主机作为控制中心节点,多台主机作为爬行节点,在局域网中连接,由控制中心节点进行任务分配,协调调度多个爬行节点并行爬取网页信息。通过对任务分配策略和分配粒度的研究,系统采用二级哈希映射的任务分配算法实现了分布式系统的协调机制,在控制中心节点的协调下,多个爬行节点避免重复爬行,均衡全面地采集网页信息。最终开发实现了一个容错能力强、负载均衡,爬行性能良好的分布式网络爬虫系统原型程序

3、。并对其进行了详细的测试评估,实验结果验证了分布式网络爬虫的可行性和高效性。关键词:分布式系统;网络爬虫;任务分配AbstractWiththedevelopmentofnetworktechnology,Webinformationincreaserapidly,atthesametimepeople'sinformationneedshavealsoincreased,sothenetworktechnologyofWebCrawlerisfacedwithenormouschallenges.becauseofAsingleWebCrawlerhassomedisad

4、vantage,suchaslowoperatingefficiency,longsearchtimeetc.ItisdifficulttocrawlthewholeWebascomprehensiveaspossibleforasingleCrawler.DistributedCrawlercanrunmorethanoneCrawlertocrawltheWebinformationconcurrently,soDistributedCrawlersovletheproblemoftheincreasingWebinformationondemand.Basedonth

5、eknowledgeandtechnologyofdistributedcrawlerresearch,thispaperdesignthearchitectureofDistributedCrawlerwithcenterofatopology-basedincludingonePCasthecontrolcenter,morethanonePCascrawlingnodeswiththeLANconnected.Nodesfromthecontrolcenterfordistributionoftasks,coordinationofschedulinganumbero

6、fparallelcrawlingnodeinformationfromthepage.Thispaperalsostudythestrategyoftaskallocationanddistributionofparticlesize,achieveadistributedsystemcoordinationmechanismswithtwo-levelhashtaskdistributedalgorithm.Ultimately,thispaperintroducehowtodevelopabalanced,comprehensive,strongandefficien

7、tDistributedCrawlertocollectWebpagesfromtheInternet.Keywords:DistributedSystem;WebCrawler;TaskAllocation目 录第一章引言11.1课题研究背景及意义11.2本文主要工作内容21.3论文组织结构3第二章分布式网络爬虫相关知识42.1搜索引擎工作原理42.2分布式与集中式网络爬虫62.2.1集中式网络爬虫62.2.2分布式网络爬虫72.2.3分布式系统的优缺点82.3分布式网络爬虫研究现状9第三章分布式网络爬虫系统架构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。