基于MapReduce的分布式网络蜘蛛研究与实现

基于MapReduce的分布式网络蜘蛛研究与实现

ID:36543373

大小:4.69 MB

页数:72页

时间:2019-05-11

基于MapReduce的分布式网络蜘蛛研究与实现_第1页
基于MapReduce的分布式网络蜘蛛研究与实现_第2页
基于MapReduce的分布式网络蜘蛛研究与实现_第3页
基于MapReduce的分布式网络蜘蛛研究与实现_第4页
基于MapReduce的分布式网络蜘蛛研究与实现_第5页
资源描述:

《基于MapReduce的分布式网络蜘蛛研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、扉页:独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人或集体已经发表或撰写过的研究成果,对本文的研究做出贡献的集体和个人均已在论文中作了明确的说明并表示了谢意。研究生签名:重垫.日期:趋!至:£:丛论文使用和授权说明本人完全了解云南大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交学位论文和论文电子版;允许论文被查阅或借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵循此规定)研究生躲童蕉起铆虢缸日期:一

2、≥盟至·s.蛰本人及导师同意将学位论文提交至清华大学“中国学术期刊(光盘版)电子杂志社”进行电子和网络出版,并编入CNKI系列数据库,传播本学位论文的全部或部分内容,同意按《中国优秀博硕士学位论文全文数据库出版章程》规定享受相关权益。研究生签名:——导师签名:日期:摘要IUlIIIIIIlUlIIltlIIII

3、.Y2371022网络蜘蛛为搜索引擎提供了需要检索数据的来源,其性能直接影响着搜索引擎的服务质量。进入Web2.0时代后,互联网数据呈现出海量增长的趋势。面对海量页面数据,如何能够及时获取高质量的页面以及有效存储和计算抓取过程中产生的数据是网络蜘蛛面临的重要问题。

4、分布式技术以其高性能的特点成为解决这些问题的有效方案。本文使用分布式技术对传统串型工作方式的网络蜘蛛进行改进,设计实现基于分布式系统的并行工作蜘蛛,即分布式网络蜘蛛。首先,因为海量页面质量参差不齐,所以需要设计有效的策略对页面进行有选择地抓取,本文基于页面的动态变化特性,结合历史信息参考策略、大站优先策略和PageRank页面重要度评分技术,提出了新的多级权值抓取策略对页面进行更为有效地抓取;其次为了使网络蜘蛛并行分布式地高速运行,我们利用MapReduce分布式计算技术,设计了URL分发器,对抓取到页面的URL地址进行有效分析,使得抓取的页面能够进行有效的聚集;基于此,

5、给出了带URL分发器的对等式网络蜘蛛架构;同时利用分布式文件存储系统(HadoopDistributedFileSystem,HDFS)技术,对网络蜘蛛的分布式存储结构进行设计;利用MapReduce和HDFS分布式技术特点,给出了具体的key/value设计,规划相关key/value数据流转;最后将通用抓取框架、URL分发器、多级权值抓取策略、和PageRank算法进行有效地组合设计,并对得到的算法进行了分布式并行实现。为了验证分布式网络蜘蛛的性能,搭建Hadoop集群环境对其进行了分析和测试。分布式网络蜘蛛对海量页面能进行有效的抓取,通过并行高速实现,提高了抓取的性

6、能和速度。基于此,可以提高搜索引擎的工作效率和质量,从而提高信息处理的速度并改善查询的体验。本系统结构具有兼容性和灵活性,可方便的在其上进行兼容和扩展,为搜索引擎的并行设计与实现,进行了探索,提供了有效途径。关键词:网络蜘蛛;分布式;MapReduce;HDFS;key-value摘要IIAbstractWebSpiderprovidessearchengineswiththesourceofretrievedatainneed;thus,itsperformancedirectlyaffectstheservicequalityofsearchengines.Witht

7、hecomingofWeb2.0era,Internetdatashowsamassivegrowthtrend.Infaceofthemassivepagedata,theimportantissuefacedbyWebSpideristobeabletohavetimelyaccesstohigh--qualitypagesandtoeffectivelystoreandcomputedatageneratedinthefetchingprocess.Distributedtechnology,诹tllitshigh—performance,becomesaneffe

8、ctivesolutiontotheseproblems.Tosolvetheseproblems,thispaper,onthebasisofthetraditionalWebSpider,designsandpracticesWebSpiderinparallelworkingbasedondistributedsystem,whichisnameddistributednetworkspider.Thispaper,witlldistributedtechnology,designsdistributednetworks

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。