资源描述:
《基于hadoop的分布式爬虫及其实》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、密级保密期限:硕士研究生学位论文题目:学号:姓名:专业:导师:学院:0757392010年1月10日密级:保密期限:硕士研究生学位论文题目:学号:姓名:专业:导师:学院:0757392010年1月10日独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作
2、了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:不璐陀日期:洲0.3.11关于论文使用授权的说明·学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在-~
3、旦一年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:劣并政了人二加日期:加久子份.日期:俨t。·了.1下北京邮电大学硕士学位论文摘要基于Hadoop平台的分布式爬虫及其实现摘任石3(如今,云计算已成为未来发展的重要趋势之一。目前,世界上各大lT公司如Google、IBM、微软、亚马逊等纷纷搭建了自己的“云计算平台”。鉴于此,实验室也制定了长期“云计算”研究计划,积极尝试开发自己的“云平台工作环境”,其主要建立在APache开源项目Hadoop的基础之上。本项目是该
4、长期计划的一部分,目的是在Hadoop分布式文件系统HDFS以及分布式计算框架MaPReduce的基础上开发“分布式搜索引擎”。本文正是在此基础上,探讨了搜索引擎的爬虫部分,即基于分布式计算框架的分布式爬虫。本文具体研究工作包括云计篡HadQop分布式平台、网挪卑原理早个主要部分。在云计算部分,本文从云计算体系结构出发,探讨了云计算服务层次和'技术层次。接着,针对技术基础Hadoop分布式平台,本文对其两大核心技术分·布式文件系统HDFS和分布式计算框架MaPReduce进行了深入研究。与此同时,本文讨论了搜索引
5、擎的基本技术和网络爬虫的基本原理,并对分布式爬虫的技术原型Nuteh进行了剖析。在研究工作的基础上,本文提出了分布式爬虫的具体设计方案,确定了分布式爬虫的系统布局、模块划分以及分布式爬虫的流程控制和功能实现。基于此,本文对分布式爬虫的数据存储方式和数据格式信息进行了设计,并完成了爬虫各分模块具体类的实现。最后,在实验室大规模集群的基础上,对该爬虫系统进行了功能测试、可扩展性测试和性能测试。在这些测试数据的基础上,本文对该系统的优点和缺点进行了详细分析,并对工作进行了总结和展望。关键词:云计算分布式爬虫Hadoop
6、HDFSMapReduce搜索引擎7北京邮电大学硕士学位论文AbstraetRESEARCHANDIMPLEMENT入r1ONOFDISTRIBUTEDWEBCRAWLBASEDONHADOOPARCHITECTUREABSTRACTNowadays,cloudeomPutinghasbecomeoneofthemostimPortanttechnologyintheITindustry.TheleadingeomPaniessuehasGoogle,IBM,Mierosoft,Amazonand50onared
7、eveloPingtheir“CloudComputingplatfo钾”activel犷Inthissituat护n,thelabofStat只称y-LaboratoryofNetworkingandSwitehingalsoneedtodeveloPitsown·“CloudComputingplatform”,whieh15mainlybasedonHadoop,TheprojeetofthisPaPer15onePartofthiseloudcomPutingPlatform.Thegoal15todev
8、eloPadistributedsearehenginebasedonRedhatELS.2,distributedfilesystemHDFSanddistributedeomPutingftameworkMaPReduce.ThisPaPerexPlorestheerawlPartofthisdistributedsearehenglne.ThisPaPerfirst