欢迎来到天天文库
浏览记录
ID:8548445
大小:1.97 MB
页数:9页
时间:2018-04-01
《搭建基于云计算的海量数据挖掘平台 研究实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、搭建基于云计算的开源海量数据挖掘平台赵华茗(中国科学院国家科学图书馆北京100190)【摘要】本文通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术XEN和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出了实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:一、搭建动态虚拟的云计算环境,二、安装制作HADOOP虚拟服务器模板,三、配置运行Cloudera和ClouderaDesktop。通过开源EMR架构的应用,可以效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式
2、数据挖掘服务的快速布署能力及灵活性。【关键词】云计算;海量数据挖掘;虚拟技术;分布式计算;xen;Cloudera;Hadoop;【分类号】TP393BuildingtheOpenSourceMassDataMiningPlatformBasedonCloudComputingZhaoHuaming(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)【Abstract】Aimstomeettheinternaldataprocessingneedsofinformationorganizatio
3、ns,thispaper,byanalyzingtheframeworksofAmazonelasticmap/reduce(EMR)platform,putsforwardtobuildthedynamicandelasticopensourcemassdataminingplatformbasedonCloudComputing,andprovidesaroadmapofsuccessfulimplementation,anexampleofmassivetextdataprocessingandtheanalysisofadvantageofopensourceEMRpla
4、tform.Thisimplementationplanincludesthreeparts:1.buildingdynamicvirtualenvironmentofcloudcomputing;2.creatingthevirtualservertemplateofHADOOP;3.deployingandrunningClouderaandClouderaDesktop.ThroughtheapplicationoftheopensourceEMRplatform,wecansolvetheproblemofserversprawleffectivelytoimproveu
5、tilizationratioofnetworkcomputingresourceandtoenhancetherapiddeploymentcapabilityandagilityofdistributeddataprocessingservices.【Keywords】cloudcomputing;massdatamining;virtualization;distributedcomputing;xen;Cloudera;Hadoop1引言互联网促进了信息流通,也带来了信息的爆炸式增长,最新的IDC的研究报告指出2010年全球信息量将进入ZB时代,并且每年以60%的速度在上
6、升,这意味着每18个月全球信息数据量将被翻倍[1]。面对不断拓展的惊人的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式的支持。云计算因为其弹性可伸缩的计算模式,受到以IBM、亚马逊、谷歌等为代表的众多高科技公司的重视,成为各公司应对海量信息处理的利器。近年来,出现了众多各具特色的云计算应用产品,包括应用在服务托管领域的亚马逊弹性云,著名的谷歌搜索,ZOHO在线办公应用等等。而应用在海量数据存储挖掘领域的典型云计算应用也出自于亚马逊公司,即亚马逊的HADO
7、OP架构服务,亚马逊称其为弹性MR(ElasticMapReduce,EMR)[2,3],整体架构图如图1所示。EMR框架分为三部分,控制接口(AWSConsole)、存储服务(AmazonSimpleStorageService,S3)和弹性计算(AmazonElasticComputeCloud,EC2)。通过EMR平台,企业、研究人员、数据分析师可以花费较少的费用轻松处理大数据集而不用担心计算设备问题。显而易见,随着数据宇宙时代的到来,这种新的动态可伸缩的数据处理模式必将在
此文档下载收益归作者所有