欢迎来到天天文库
浏览记录
ID:35173927
大小:4.64 MB
页数:49页
时间:2019-03-20
《基于mapreduce的连接算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391密级UDC论文编号化^一敞哀硕±学位论文论文题目:基于Ma口Reduce的连接算法研究:何利民研究生:梁倦杰导师专业:系统分析与集成研究方向:数据分析2016年5月分类号:TP391学巧代号:10512学号;2013111104000656湖北大学硕±学位论文基于MapReduce的连接算法研究作者姓名:何利民指导教师姓名、职称:梁俊杰,教授申请学位类别:理学硕±学位学科专业名称:系统分析与集成研究方向:数据
2、分析论文提交日期;^年《月I日论文答辩日期;占年月次日2学位授予单位:湖北大学学位授予日期:年月日?答辩委员会主席;Join过gori化mresearchbasedonMapReduceAThesisSubmittedfo"heD巧巧eofMas化rCandidate:HeLiminSurvisor:Prof.LfangJunfepejHubeiUniversityWuhan,China学位论文使用授权书、彼羯学隹论文的管理办法及规定本论文作者完全了解学
3、校关于揉存,郎学校有权谋留异向国宋有关部口戒机均遊交论文的复印件和电子版,允许沦文被查巧和谱阔。本人完全同意《中国博主""学營论文全文敎据库出嚴牵强》《》下、中擾优秀硕±学位添文企文数据库出版章薄幫称華程,见WWW.cnki.net),魔意将本人的学谊论文巧交中围学术期刊(化盎版)电子杂志社在《中国巧主学替论文全文数据库》、《中国优秀硕±学爸论文全文数羅库》中全义发索和W电子.巧絡茂其他数字缓体形式公开出版,异罔惠編入CNKI《中围知巧资源总摩》,在《中国I博硕去学植沦文评化数攝""库》中使用和在至撰两上传播,罔意
4、按牵埋规定革受相关朽按(请作者直接与杂志社联系,巧-0--1062791817、62793176627011巧化址48豕入;栗老邱:电话:、;通巧:北京淆华大学邮局84、信箱采編中吃邮雜:100084)。本投权书签署一式£巧,唆湖北大学学位巧定委员会办公室。学替论文作者签名;导邹空名;^年&月/B年《月田I縱扶学研究生学位论文作者倍息论文嫣呂基于MapReduce的连讓第法研究域名何利民学晋2013111104000656答辩日顯2016年5月20艮论文巧别博±口頭去cf
5、院计算机与信患工程学院专业系统分析与窠成联系运巧作者Enail.j作者通信地址;(含邮额)备值;注:卡派义如需镶密,讓密级别是.辩密时闺是___年____月。(澡密学位论义在解密盾适周子本授权书)基于MapReduce的连接算法研究摘要最近几年,大数据己经渗透到了公共健康、临床医疗、物験网、社交网络、社会管理、传统零售业和工业制造业等各行各业。我们处在大数据时代,数据呈现指数级増长和积累,大数据挖掘和分析处理受到工业界与学术界的重点关注。MapReduce作为一种分布式计算编程框架,不
6、仅可扩展性好,并具有很好的容错性和高可用等优势,能够完成海量数据的分布式计算任务,在大数据挖掘和分析处理方面有着不可替代的作用,是谷歌,阿里己己等企业和学术界研究应用大数据的重要技术平台。连接操作是大规模数据集的数据分析应用中最常用的操作。在MapReduce框架下,当参与连接的原始数据集分布不均匀容易造成某些个mapper任务预处理的数据量不均衡,产生map端倾斜的问题;mapper任务对倾斜数据集采用默认的哈希函数进行分区时会出现某些个reducer任务数据处理量远多于其他reducer任务,出现reduc
7、e端负载倾斜的问题。针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,本文设计MaReduce的频次分类连接。了基于p算法具体的研究内容包括;一Ha第,基于直方图设计了数据分类方法。因为doop本身无法感知mapper端输出数据的分布情况,导致reducer的负载不均衡,影响连接执行的效率。本文对mapper任务输出的中间结果基于直方图进行统计分析,根据数据在连接数据集中出现的频率将整个数据集分为H类。通过确定数据分布情况,从而设计适应的分区函数和数据分发机reducer制,确保每个的负载均衡,
8、提高连接査询效率。第二,基于数据分类设计了数据分发机制。为了避免数据连接的时候,各个节点的任务出现负载不均衡,对倾斜数据利用分区算法和广播算法实现数据重分布,消除数据倾斟影响;对非
此文档下载收益归作者所有