欢迎来到天天文库
浏览记录
ID:58406575
大小:3.60 MB
页数:30页
时间:2020-09-07
《基于MapReduce的并行编程研究-习荣华.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、指导教师:郝卫东老师基于MapReduce的并行编程研究班级:电信082学生:习荣华学号:40850449提纲:研究的背景与目的论文框架和主要内容相关概念:云计算和并行计算论文成果背景:随着信息技术的发展,网络产生的数据也呈指数增长,而传统的技术架构和仅靠单台计算机基于串行的方式越来越不适应当前海量数据处理的要求。因此要在一定的时间内以快速的处理速度来完成对数据的处理,MapReduce顺势而生。目的:MapReduce作为一个分布式并行编程模型,它用来有效地处理海量数据,不断地从中挖掘出有价值的信息。本文通过详细的介绍此模型,从而使我们可以
2、有效的利用此模型来进行并行程序的编写。研究的背景与目的论文的框架和主要内容第一章:本章的内容主要是介绍了关于课题的背景、研究的意义以及国内外发展的状况。第二章:本章是对云计算的一个概述,其中详细的介绍了云计算的特点、云计算的服务分类以及云计算的关键技术第三章:本章中通过与串行计算的对比引出并行计算的概念,并在并行计算的进程模型、体系结构以及编程模型等方面进行了全方位的阐述。第四章:在本章中,通过其应用、特点及基本结构详细的介绍了Hadoop这个分布式计算平台,随后着重的介绍了两个子项目:分布式文件系统HDFS和分布式并行编程模型MapRedu
3、ce。第五章:通过安装Hadoop平台,在其上运行两个分布式应用程序:词频统计和全年最高气温。随后简单介绍Mahout及基于Mahout的k-means聚类例子。云计算云计算之定义:云计算是指IT服务的交付和使用模式,是指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常形容为像使用水、电一样使用IT基础设施。什么是云计算?云计算特点超大规模虚拟化高可靠性通用性高可扩展性按需服务极其廉价云计算服务
4、云计算发展并行计算摩尔定律集成电路芯片上所集成的电路的数目,每隔18个月就翻一番,同时性能也提升一倍并行计算定义:简单的来说就是用多个处理器来同时协调求解决一问题,即将需要求解的问题分解成若干个部分,各部分分配给一个独立的处理机来进行并行计算。摩尔定律正在走向终结单芯片容纳晶体管的增加,对制造工艺提出要求CPU制造18nm技术,电子泄漏问题CPU主频已达3GHz时代,难以继续提高散热问题(发热太大,且难以驱散)功耗太高未来的发展:多核主要成果词频统计全年最高气温k-means聚类MapReduce是一种处理海量数据的并行编程模式处理数据量巨大
5、(PB级),将任务分布在成百上千个节点组成的集群上进行并行计算,并且在可接受的时间内完成JefferyDean设计一个新的抽象模型,使我们只要执行的简单计算,而将并行化、容错、数据分布、负载均衡的等杂乱细节放在一个库里,使并行编程时不必关心它们这就是MapReduceGoogleMapReduce架构设计师JeffreyDean实践检验真理Google宣布,其对分布于1000台计算机上的1TB数据进行排序仅仅需要68s对4000台计算机上的1PB数据进行排序处理仅需要6小时2分钟(每次测试至少会损坏1块硬盘)在08年1月份,GoogleMap
6、Reduce平均每天的数据处理量是20PB,相当于美国国会图书馆当年5月份存档网络数据的240倍MapReduce执行流程词频统计MapReduce对数据的处理是通过map()和reduce()两个自定义函数实现的,在词频统计中这两个函数具体如下:Map(K,V){ForeachwordwinVCollect(w,1);}Reduce(K,V[]){intcount=0;ForeachvinVcount+=v;Collect(K,count);}词频统计Step1:首先对输入的文档文件进行分割(Split),把输入文件分成两组,且由系统自动完
7、成HelloHadoopByeHadoopHelloWorldGoodByeWorldsplitsplitHelloHadoopByeHadoopHelloWorldGoodByeWorld词频统计Step2:在输入文件分割完成之后,使用用户编写好的Map函数从而产生集HelloHadoopByeHadoopHelloWorldGoodByeWorldmapmap词频统计St
8、ep3:combine和partition过程
此文档下载收益归作者所有