基于hadoop框架大数据集连接优化算法

ID：32412013

大小：1.35 MB

页数：63页

时间：2019-02-04

资源描述：

《基于hadoop框架大数据集连接优化算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、JoinProcessingandOptimizingonLargeDataSetsBasedonHadoopFrameworkThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringBySunHuiSupervisor:Prof.WangXiaojunMarch2013南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽

2、我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实，愿意承担一切相关的法律责任。研究生签名：_____________日期：____________南京邮电大学学位论文使用授权声明本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档；允许论文被查阅和借阅；可以将学位论

3、文的全部或部分内容编入有关数据库进行检索；可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布（包括刊登）授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名：____________导师签名：____________日期：_____________摘要MapReduce是Google开发的一种并行分布式计算模型，已在搜索和处理海量数据领域得到了广泛的应用，Hadoop是它的开源实现。MapReduce编程模型因为其良好的可扩展性、

4、高可用性以及容错性而被广泛地运用于不同的领域，并且都获得很多好评。但是，由于MapReduce分布式编程框架自身的局限性，使得该模型进行表连接任务特别是多表连接任务时存在一定的不足。本文首先针对基于MapReduce框架的通用二路连接算法RSJ的不足提出了一种基于DistributedCache的改进优化算法。优化算法的思想是在进行RSJ算法进行表关联之前，将其中一个表的连接属性的值提取出来并且经过Bit-map压缩成较小的“背景”数据存放到一个小的文件中，然后经由DistributedCache机制传输到各

5、个节点上。再进行RSJ算法实现二个表连接时，在Map阶段可以通过读取“背景”数据来过滤掉另一表中不满足连接条件的元组，从而减少mapper输出的数据来达到优化的效果。之后，为了解决多路连接过程中频繁出现中间结果集而带来巨大的I/O开销，本文采用了一种新的重定向mapper端输出策略——“一对多分区”策略，该策略的好处是：能够使得多个连接数据集中满足连接条件的元素都可以一次性发送到同一个reducer进行连接处理，从而实现一个MapReduce作业就能够完成多表连接操作。并且基于该思想对原MapReduce框架

6、进行了改进。最后，在搭建的Hadoop并行计算平台上进行试验，以验证上述两种优化方案相对于之前的是否提高连接任务的执行效率。关键词:云计算，MapReduce，Hadoop，HDFS，连接，Bit-map，DistributedCache，分区策略IAbstractDataanalysisisanimportantfunctionalityincloudcomputingwhichallowsahugeamountofdatatobeprocessedoververylargeclusters.MapRedu

7、ceisrecognizedasapopularwaytohandledataincloudenvironmentduetoitsexcellentscalabilityandgoodfaulttolerance.Howeverbecauseofitsownlimitation,theperformanceofMapReduceisslowwhenitisadoptedtoperformcomplexdataanalysistasksthatrequirethejoiningofdatasetsinorder

8、tocomputecertainaggregates.First,throughtheanalysisoftheshortageofageneraltwo-wayjoinalgorithm--RSJ,aoptimizationalgorithmisproposedwhichisbasedonDistributedCache.Theideaofthisoptimizationalgorithmispr

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 63



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于hadoop框架大数据集连接优化算法

基于hadoop框架大数据集连接优化算法

相关文章

相关标签