基于mapreduce的数据聚集运算处算法研究与实现

基于mapreduce的数据聚集运算处算法研究与实现

ID:32972598

大小:4.61 MB

页数:71页

时间:2019-02-18

基于mapreduce的数据聚集运算处算法研究与实现_第1页
基于mapreduce的数据聚集运算处算法研究与实现_第2页
基于mapreduce的数据聚集运算处算法研究与实现_第3页
基于mapreduce的数据聚集运算处算法研究与实现_第4页
基于mapreduce的数据聚集运算处算法研究与实现_第5页
资源描述:

《基于mapreduce的数据聚集运算处算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级学位论文基于MapReduce的数据聚集运算算法研究与实现作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:高伟鲍玉斌副教授东北大学信息科学与工程学院硕士学科类别:工学计算机应用技术2010年6月15日论文答辩日期:2010年7月3日年月辩委员会主席:申德荣剧、蛱乏材>东北大学2010年6月AThesisfortheDegreeofMasterin.ComputerApplicationTechnoloL叮v.ResearchandImplementationonMapReduce--basedAggregationAl

2、gorithmsByGaoWeiSupervisor:AssociateProfessorBaoYubinNortheasternUniversityJune2010独创性声明本人声明,所呈交的学位论文是在导师的指导F完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。/),1学位论文作者签名:为钐参签字日期:汐

3、9j(。汐。学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的

4、规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:黧≯葛惫学嚣未璺丝签字曰期:汐/秒.钐,汐.签字日期:M汐·∥’沙东北大学硕士学位论文摘要基于MapReduce的数据聚集运算算法研究与实现摘要信息化技术的不断深入应用,特别是网络技术的迅速发展,导致了数据的规模急剧增长。因此,如何保证海量数据的有效存储和管理,提高针对海量数据的处理效率成为人们日益关注的焦点。聚集运算是数据预处理中最典型操作之一,对提高查询效率有

5、着非常重要的意义,但是聚集运算非常耗费计算资源,特别是针对海量级别数据的聚集运算,更是需要巨大的计算能力和存储能力,而普通的PC机难以提供这样的计算资源,所以研究适合海量数据的聚集运算具有重要意义。本文通过详细研究了Google的分布式文件系统(GFS)以及MapReduce并行计算框架,充分利用该分布式文件系统的高扩展型、高容错性等特性,结合MapReduce在处理大规模数据集时的并行性处理特性,提出了一组面向海量数据的数据聚集运算算法,该组算法主要包括基于MapReduce的关系型数据的选择、投影以及等值连接等算法,并在此基础之上,实现了基于MapReduce的计数

6、(Count)、求和(Sum)、均值(Average)、最大值(Max)和最小值(Min)等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。该套算法充分利用了集群系统的计算能力和存储能力,以及集群系统的网络带宽,极大的提高了海量数据的聚集运算效率,有效地减少了的运算时间,提高了基于聚集运算结果上的数据查询效率。本文还在以上聚集运算算法的基础上,实现了基于MapReduce的全局封闭数据立方体生成算法,以及在全局封闭数据立方体上的查询算法。实验表明该算法充分发挥了集群系统的并行处理能力,可以高效的生成全局封闭数据立方体以及快速的完成在其上的查询任务。关键词:数据立方

7、体;聚集运算:MapReduce;Hadoop东北大学硕士学位论文AbstractResearchandImplementationonMapReduce—-basedAggregationAlgorithmsAbstractThedevelopmentofinformationtechnology,especiallytherapiddevelopmentofnetworktechnology,ledtotherapidgrowthofdataamount.Therefore,modemrearchhascenteredonhowtoensuretheeffectiv

8、estorageandmanagementformassivedatatoimprovethecomputingefficiencyofmassivedata.Aggregationcomputingisoneofthemosttypicaldatapre—processingmethods,whichcanbegreatsignificanceimprovingqueryefficiencyonmassivedata.However,aggregationofmassivedatarequiresenormouscomputingpow

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。