搜索引擎并行计算框架的设计和实现 (1)

搜索引擎并行计算框架的设计和实现 (1)

ID:27220907

大小:1.65 MB

页数:76页

时间:2018-12-02

搜索引擎并行计算框架的设计和实现 (1)_第1页
搜索引擎并行计算框架的设计和实现 (1)_第2页
搜索引擎并行计算框架的设计和实现 (1)_第3页
搜索引擎并行计算框架的设计和实现 (1)_第4页
搜索引擎并行计算框架的设计和实现 (1)_第5页
资源描述:

《搜索引擎并行计算框架的设计和实现 (1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、·ClassifiedIndex:TP391.3U.D.C:621.3DissertationfortheMasterDegreeofEngineeringTHEPARALLELCOMPUTINGFRAMEWORKINSEARCHENGINECandidate:MengShiSupervisor:Prof.WangXiaolongAssociateSupervisor:AssociateProf.ChenQingcaiAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerSci

2、ence&TechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2007Degree-Conferring-Institution:HarbinInstituteofTechnology····哈尔滨工业大学工学硕士学位论文摘要随着技术的日新月异,各种新思想在搜索引擎领域不断的提出。由于搜索引擎所需要处理数据量极大且这些数据更新速度极快,传统的串行计算已不能满足搜索引擎中的计算需要,因此大规模搜索引擎中无一例外的采用了并行的方式。而在这种前提下并行编程的高难度,成了新

3、思想应用到实际中的主要障碍,为此Google提出了一种MapReduce的方法来解决这个问题。本课题研究的目的在于实现了一种通用的并行架构模型——MapReduce模型,使得开发人员在开发新的并行程序时可以脱离繁琐的并行编程,降低其复杂度,提高新思想应用的速度,并在MapReduce模型的基础上加以扩展。本课题对搜索引擎中所需要的并行计算进行了分析,并在分析传统并行算法的基础上,实现并扩展了MapReduce框架。本文主要研究内容如下:(1)分析搜索引擎中并行运算,根据其特点得到需求。(2)分析传统并行算法,结合其特点分析MapReduce思想,

4、并根据其思想设计实现了基于C++的MapReduce系统(3)在网页内容的模糊去重算法应用中发现MapReduce架构在Mapper结果的归并过程调度上的不足,并设计实现了相应的解决方案,在原有的MapReduce框架的基础上进行了扩展。(4)根据实际应用,分析MapReduce实际效率。通过大规模试验,最终我们发现:在实际应用中随着MapReduce框架的引入,用户所编写并行程序的代码量大幅度降低,在一些应用中用户所需要编写的代码量由原来的数百行降低为几十行。同样开发时间大幅度的缩短,在一些开发中,开发时间从原来的几周到几个月缩短到几天到几周,

5、在某些情况下甚至缩短为一天。关键词搜索引擎;并行计算;MapReduce-I-····哈尔滨工业大学工学硕士学位论文AbstractTraditionalserialcomputingcouldn’tmeettheneedsofsearchenginebecauseofthehugeamountofwebpages.Withtheappearanceofnewideasandtechnologies,parrallelcomputinghasbecomethepopularmethodinstead.However,becauseofitshig

6、hdifficulty,thistechnologyisfarfromsatisfactory.GooglebroughtforwardanewgeneralizedparallelcomputingmodelnamedMapReducetosolvethisproblem.ThemajorachievementofthethesisistoimplementandimproveMapReduceframeworkbasedonC++languagewhichcanhelpreducethedifficultyofparallelprogramm

7、ingandenhancethespeedofnewidea’sappliance.Themaincontributionsofthisthesisarelistedbelow:(1)AnalyzetheneedsofparallelcomputinginsearchengineanddesigntheMRframeworkbasedonthem.(2)AnalyzetraditionalpalfreyalgorithmsandAnalyzetheMapReducemethod,designandimplementmodulesoftraditi

8、onalMapReduce.(3)WhenuseoriginalMapReducetoimplementremovingofduplic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。