欢迎来到天天文库
浏览记录
ID:32389941
大小:6.84 MB
页数:78页
时间:2019-02-04
《基于nutch的分布式搜索引擎的研究与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号——UDC——密级学校代码武堪程歹大署学位论文10497题目基王必鲍金查蠢撞盘曼!茎鲍盟塞鱼垡垡.——英ResearchDistributedSearchengineBasedOnNutch一研究生姓名互塞塞——姓名堡壹查职称割塾撞.学位谴±指导教师单位名称盐笠扭盘鲎鱼垫盔堂瞳邮编垒圣QQ鱼单位名称盐笠扭盘鲎鱼垫盔鲎瞳邮编垒圣QQ鱼3.一申请学位级别亟±学科专业名称盐笠垫廛旦.垫盔.一论文提交日期2Q13生垒月论文答辩日期2Q13生盟2013年5月独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文
2、中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学和其它教育机构的学位和证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均已在论文中作了明确的说明并表示了感谢。签名:结晰趟生当。关于论文使用授权的说明本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留交向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务
3、。(保密的论文在解密后应遵守此规定)研究引鹳’乃支易。剥州鹕卜种妊日期纠参上对武汉理工大学硕士学位论文摘要云计算已发展成为目前计算机产业界和学术界关注的热点之一,Hadoop,作为当今最流行的云计算平台,也得到了越来越广泛的应用。与此同时,开放源代码搜索引擎包Nutch不仅能提供搜索引擎所需要的工具,还具有极好的扩展性,越来越多的学者围绕Hadoop和Nutch的结合展开研究,力图通过各种途径来提高分布式搜索的性能,本文正是在这些学者的研究成果上,开展了基于Nutch和Hadoop的分布式搜索引擎的研究和优化等相关工作。本文具体研究工作包括:Nutch框架、Hadoop分布式平台和分
4、布式爬虫原理三个方面。首先,对Nutch框架和Hadoop分布式平台进行了分析和研究,仔细剖析了其架构及主要工作原理,如索引机制、插件机制、HDFS,Map/Reduce等核心技术。接着重点研究了爬虫技术,特别是分布式爬虫技术,通过分析和研究现有的基于Nutch的爬取机制,从改变数据结构入手,在任务分配算法中引入可扩展的哈希函数,从而解决了原有算法中负载均衡性和算法低效率的问题。在上述研究工作的基础上,本文设计了基于Nuteh和Hadoop的分布式搜索系统,在所设计系统的索引模块中采用了可扩展的hash函数,在索引和搜索模块中利用Nutch的可扩展性,通过引入中科院的汉语词法分析系统
5、ICTCLAS,有效地改进了Nutch对中文的支持力。最后,本文对所设计的搜索系统,在实验室构建的集群基础上,从多个角度进行了功能测试、性能测试和综合评估,测试结果不仅验证了所设计的系统的可行性和可扩展性,还验证了其性能的提升。关键字:Nutch索引哈希算法Hadoop武汉理工大学硕士学位论文AbstractCloudcomputinghasdevelopedintoahotconcernforthecomputerindustryandacademia,Hadoop,astoday’Smostpopularcloudcomputingplatformhasbeenusedmorew
6、idely.Atthesanletime,theopensourcesearchenginepackageNutchisnotonlyabletoprovidethetoolsneededbythesearchengine,butalsohasexcellentscalability.Moreandmorescholarsresearcharoundhowtoimprovetheperformanceofdistributedsearch.,thisthesisfocusesondistributedsearchenginebasedonNutchandHadoopanditsopt
7、imizationbasedonNutchandHadoop.Thedetailedresearchworkofthisthesisincludesthreeaspects:theNutchframework,Hadoopdistributedplatformsanddistributedcrawlerprinciple.ThethesisfirstlyanalysesNutchframeworkandtheHadoopDistributedplatfor
此文档下载收益归作者所有