基于hadoop+streaming的last软件并行化的研究与实现

基于hadoop+streaming的last软件并行化的研究与实现

ID:33538713

大小:3.92 MB

页数:52页

时间:2019-02-26

基于hadoop+streaming的last软件并行化的研究与实现_第1页
基于hadoop+streaming的last软件并行化的研究与实现_第2页
基于hadoop+streaming的last软件并行化的研究与实现_第3页
基于hadoop+streaming的last软件并行化的研究与实现_第4页
基于hadoop+streaming的last软件并行化的研究与实现_第5页
资源描述:

《基于hadoop+streaming的last软件并行化的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据学校代码:10225学号:S14417学位论文基于hadoopstreaming的Last软件并行化指导教师姓名:申请学位级别:论文提交日期:授予学位单位:的研究与实现李文浩董本志副教授东北林业大学硕士学科专业:计算机应用技术2014-04-20论文答辩日期:2014—06-13东北林业大学授予学位日期:2014—06—25答辩委员会主席:论文评阅人:聋多厶栉素大学万方数据UniversityCode:10225RegisterCode:S14417DissertationfortheDegreeofMasterParallelImplementa

2、tionforLastBasedonHadoopStreamingCandidate:Supervisor:AssociateSupervisor:AcademicDegreeAppliedfor:Specialty:DateofOralExamination:University:LiWenhaoA.Pro.DongBermhiMasterComputerApplicationsTechnologyJune13,2014NortheastForestry万方数据摘要随着互联网、物联网及云计算相关技术的迅速发展,相关科学领域的数据呈现快速增长的趋势,如何快

3、速准确的分析日益增长的数据成为一大难题。当前许多领域的成熟软件仍然是单机版软件,这种单机版软件无法面对其所在领域日益增长的海量数据。通过将这种成熟的单机版软件在云平台上实现并行化将能够有效解决这个问题。为实现单机版软件并行化,往往需要分析单机版软件的源码,并转换输入文件的结构。此过程费时费力,开发周期较长。本文主要阐述了一种在不修改单机版软件任何源码及输入文件结构的情况下,将单机版软件快速在Hadoop平台实现并行化的方案。该方案通过使用Hadoop平台提供的HadoopStreaming编程工具,将序列比对软件Last在Hadoop平台上实现了并行化,为

4、其它类似问题提供借鉴。本文的主要研究内容是:首先对Last软件并行化过程中涉及的技术和原理进行研究与分析,重点研究了Last的比对原理、Hadoop分布式平台和集群文件系统Lustre。其次设计了基于I-IDFS的并行化模型,通过修改InputFomat来使其为Last比对软件提供符合约束的输入数据,并设计相关的Mapper脚本来将Last比对软件进行打包,使其可以透明的运行在Hadoop平台上。第三,设计了基于Lustre的并行化模型,通过设计索引构建算法为输入文件建立索引,使每个子任务可以通过该索引快速的获得该任务所需处理的数据分片。并设计相关的Map

5、per脚本和Reducer脚本来将Last比对软件进行打包,重构分区类Partitioner来使并行化的粒度可控。最后设计相关实验,验证以上并行化方案的可行性、有效性和准确性。关键词Hadoop;并行化;Last;云计算;InputFormat万方数据AbstmctAbstractWiththerapiddevelopmentoftheIntemet,IOT(intemetofthings)andcloudcomputingrelatedtechnology,alotofscientificdatashowtrendsofrapidgrowth.Itbec

6、omesamajorproblemtousethematuresoftwareinvarious丘eldStoanalyzedata.Inmanyscientificfields.m幼】resoftwarearestillstand-alonesoftwarewhichcall’tke印thepaceofgrowingvolumesofdata.However,byparallelizingthosematurestand-alonesoftwareoncloudplatformswillbeabletoeffectivelysolvethisproble

7、m.Inordertorealizepamllelizationofstand-alonesoftwareapplications,theirsourcecodesalwayshavetobeanalyzedandtheinputfilestructureshouldbeconverted,whichcostsmuchtimeandleadstothelongdevelopmentperiod.Thispaperdescribesamodel,withwhichparallelizationdeploymentofstand—alonesoRwareapp

8、licationsCallberealizedqulcMyonth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。