欢迎来到天天文库
浏览记录
ID:33507931
大小:3.93 MB
页数:52页
时间:2019-02-26
《基于hadoop streaming的last软件并行化的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据学校代码:10225学号:S14417学位论文基于hadoopstreaming的Last软件并行化指导教师姓名:申请学位级别:论文提交日期:授予学位单位:的研究与实现李文浩董本志副教授东北林业大学硕士学科专业:计算机应用技术2014-04-20论文答辩日期:2014—06-13东北林业大学授予学位日期:2014—06—25答辩委员会主席:论文评阅人:聋多厶栉素大学万方数据UniversityCode:10225RegisterCode:S14417DissertationfortheDegreeo
2、fMasterParallelImplementationforLastBasedonHadoopStreamingCandidate:Supervisor:AssociateSupervisor:AcademicDegreeAppliedfor:Specialty:DateofOralExamination:University:LiWenhaoA.Pro.DongBermhiMasterComputerApplicationsTechnologyJune13,2014NortheastForestry万
3、方数据摘要随着互联网、物联网及云计算相关技术的迅速发展,相关科学领域的数据呈现快速增长的趋势,如何快速准确的分析日益增长的数据成为一大难题。当前许多领域的成熟软件仍然是单机版软件,这种单机版软件无法面对其所在领域日益增长的海量数据。通过将这种成熟的单机版软件在云平台上实现并行化将能够有效解决这个问题。为实现单机版软件并行化,往往需要分析单机版软件的源码,并转换输入文件的结构。此过程费时费力,开发周期较长。本文主要阐述了一种在不修改单机版软件任何源码及输入文件结构的情况下,将单机版软件快速在Hadoop平台实
4、现并行化的方案。该方案通过使用Hadoop平台提供的HadoopStreaming编程工具,将序列比对软件Last在Hadoop平台上实现了并行化,为其它类似问题提供借鉴。本文的主要研究内容是:首先对Last软件并行化过程中涉及的技术和原理进行研究与分析,重点研究了Last的比对原理、Hadoop分布式平台和集群文件系统Lustre。其次设计了基于I-IDFS的并行化模型,通过修改InputFomat来使其为Last比对软件提供符合约束的输入数据,并设计相关的Mapper脚本来将Last比对软件进行打包,使
5、其可以透明的运行在Hadoop平台上。第三,设计了基于Lustre的并行化模型,通过设计索引构建算法为输入文件建立索引,使每个子任务可以通过该索引快速的获得该任务所需处理的数据分片。并设计相关的Mapper脚本和Reducer脚本来将Last比对软件进行打包,重构分区类Partitioner来使并行化的粒度可控。最后设计相关实验,验证以上并行化方案的可行性、有效性和准确性。关键词Hadoop;并行化;Last;云计算;InputFormat万方数据AbstmctAbstractWiththerapiddev
6、elopmentoftheIntemet,IOT(intemetofthings)andcloudcomputingrelatedtechnology,alotofscientificdatashowtrendsofrapidgrowth.Itbecomesamajorproblemtousethematuresoftwareinvarious丘eldStoanalyzedata.Inmanyscientificfields.m幼】resoftwarearestillstand-alonesoftwarew
7、hichcall’tke印thepaceofgrowingvolumesofdata.However,byparallelizingthosematurestand-alonesoftwareoncloudplatformswillbeabletoeffectivelysolvethisproblem.Inordertorealizepamllelizationofstand-alonesoftwareapplications,theirsourcecodesalwayshavetobeanalyzedan
8、dtheinputfilestructureshouldbeconverted,whichcostsmuchtimeandleadstothelongdevelopmentperiod.Thispaperdescribesamodel,withwhichparallelizationdeploymentofstand—alonesoRwareapplicationsCallberealizedqulcMyonth
此文档下载收益归作者所有