欢迎来到天天文库
浏览记录
ID:55401476
大小:404.46 KB
页数:2页
时间:2020-05-15
《浅谈分析大数据的工具--MapReduce.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《工业控制计算机/2015年第28卷第4期97浅谈分析大数据的工具MapReduceAnalysisonLargeDataTooI-MapReduce孟婷婷何利力(浙江理工大学信息学院,浙江杭州31ooo0)摘要从大数据的概念进行认知,阐述分析大数据的生态圈,着重分析MapReduce对于大数据的应用及其优缺点,展望大数据的未来发展。期待更好地利用大数据,是大数据最终的价值体现。关键词:大数据,MapReduce,价值AbstractInthispaper,thecognitiveconceptfrombigd
2、ata,expoundstheanalysisofecologicalcircledata,focusesontheanaly—sisofMapReducefortheapplication,advantagesanddisadvantagesoflargedata,lookingforwardtothefuturedevelopmentoflargedata,tobetterusebigdata,isareflectionofthefinalvalueofthebigdataKeywords:bigdata,
3、MapReduce,value在互联网刚出现之际,我们在网上的各种信息都处于阳光(input)一>map一>一>combine->->re—之下,网络毫无秘密。我们在网络上的数据都被记录下来,随着duce->(output)网上海量数据的积淀,运用哲学里面的概念,量变引发质变,大我们可以通过一个简单的程序理解:要求几个班的最小年数据时代来临了,大数据通过对海量数据的分析,使得互联网从龄的学生,Map阶段先将数据拆成key:班级,value:出生年月之前的数
4、据交流、信息传递上升到海量数据的分析。本文通过对的格式提供给reduce,默认的partitioner会将班级相同的学生大数据概念简析,着重介绍了分析大数据的工具MapReduce发到同一个reduce上面,这样reduce可以根据年龄的排序得的应用,并对更好地利用大数据进行了展望。到最小年龄。1大数据概念2.2MapReduce逻辑过程百度百科里面关于大数据是这样描述的:大数据技术(big为了通俗易懂,假设我们处理这样的一组数据,其格式如data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透下:前两位
5、是班级号,中间是出生年,后两位是学号。O119890802198910过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整0419900901199406理成为帮助企业经营决策更积极目的的资讯。简言之,就是海量0419890504199211数据的应用,Volume(大量)、Velocity(高速)、Variety(多样)、Ve—0219911003199204racity(真实)是大数据的四大特点。与之前传统的数据概念相比,0319902403199130大数据不仅仅包括文本、语言、视频、语音等,还包括
6、我们的位置0219932202199011信息、点评信息、交易信息等各种结构化、半结构化、非结构化的O119881304199128数据,包罗万象。在大数据时代下,如何能够从不同来源的数据中0119912303199218获取新的洞察力,以获得创新性的发展是我们值得深思的。O3199002021990082MapReduce的认识我们现在要统计每个班级的最小年龄(即每个班最晚出生2.1MapReduce概念的)。MapReduce主要包括两个步骤Map和Reduce,每一步MapReduce是一种编程模型,用于
7、大规模数据集(大于都有key—value对作为输入和输出:1TB)的并行运算,基于它写出来的应用程序能够运行在由上千1)在Map过程中,通过对每一行字符串的解析,得到班级一个商用机器组成的大型集群上,它是开源大数据生态圈年份的key—value对作为输出:Hadoop的一个重要的基础成员,简言之,MapReduce是一个(01,1989)(02,1989)分布式框架。(04,1990)(01,1994)Map和Reduce是它的主要思想,来源于函数式编程语言,(04,1989)(04,1992)Map负责将数据
8、打散,它处理的是杂乱无章的源数据,解析每(02,1991)(03,1992)个数据,从中提取出key和value;Reduce负责对数据进行聚(O3,1990)(03,1991)集,数据是以key后面跟着若干个value来组织的,最后的得到(02.1993)(02,1990)(O1,1988)(04,1991)的是归纳好的数据。用户只需要实现map和reduce两个接口,(01,199
此文档下载收益归作者所有