搭建基于云计算的开源海量数据挖掘平台new

搭建基于云计算的开源海量数据挖掘平台new

ID:34476223

大小:390.30 KB

页数:6页

时间:2019-03-06

搭建基于云计算的开源海量数据挖掘平台new_第1页
搭建基于云计算的开源海量数据挖掘平台new_第2页
搭建基于云计算的开源海量数据挖掘平台new_第3页
搭建基于云计算的开源海量数据挖掘平台new_第4页
搭建基于云计算的开源海量数据挖掘平台new_第5页
资源描述:

《搭建基于云计算的开源海量数据挖掘平台new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、应用实践应用实践搭建基于云计算的开源海量数据挖掘平台赵华茗(中国科学院国家科学图书馆北京100190)摘要通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作Hadoop虚拟服务器模板、配置运行Cloudera和ClouderaDesktop。通过开源EMR架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘

2、服务的快速布署能力及灵活性。关键词云计算海量数据挖掘虚拟技术分布式计算XenClouderaHadoop分类号TP393BuildingtheOpenSourceMassDataMiningPlatformBasedonCloudComputingZhaoHuaming(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)AbstractAmiingtomeettheinternaldataprocessingneedsofinformationorganizations,thispap

3、er,byanalyzingtheframeworksofAmazonElasticMap/Reduce(EMR)platform,putsforwardtobuildthedynamicandelasticopensourcemassdataminingplatformbasedoncloudcomputing,andprovidesaroadmapofsuccessfulmiplementation,anexampleofmassivetextdataprocessingandtheanalysisofadvantagesofopensourceEMRplatform.Thismip

4、lementationplanincludesthreeparts:buildingdynamicvirtualenvironmentofcloudcomputing,creatingthevirtualservertemplateofHadoop,anddeployingandrunningClouderaandClouderaDesktop.ThroughtheapplicationofopensourceEMRplatform,theproblemofserversprawlcanbesolvedeffectively,theutilizationratioofnetworkcom

5、putingresourceismiproved,andtherapiddeploymentcapabilityandagilityofdistributeddataprocessingservicesareenhanced.KeywordsCloudcomputingMassdataminingVirtualizationDistributedcomputingXenClouderaHadoop1引言互联网促进了信息流通,也带来了信息的爆炸式增长,最新的IDC研究报告指出2010年全球信息量将进入[1]ZB时代,并且每年以60%的速度在上升,这意味着每18个月全球

6、信息数据量将被翻倍。面对不断拓展的惊人的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式。收稿日期:2010-09-26收修改稿日期:2010-09-28*本文系!第二十四届全国计算机信息管理学术研讨会∀论文。76现代图书情报技术总第198期2010年第10期云计算因为其弹性可伸缩的计算模式,受到以方式,如:最接近亚马逊EMR框架的Eucalyptus+HaIBM、亚马逊、谷歌等为代表的众多高科技公司的重doop组合、基于虚拟操作系统上的分

7、布式文件系统环视,成为各公司应对海量信息处理的利器。近年来,出境VMware+Hadoop组合和XenServer+Cloudera组合现了众多各具特色的云计算应用产品,包括应用在服等。目前,还没看到介绍以开源框架搭建EMR平台的务托管领域的亚马逊弹性云、著名的谷歌搜索、Zoho在相关文献。本文使用最后一种平台组合构建本系统机线办公应用等。而在海量数据存储挖掘领域的典型云构内部的开源EMR平台,实现类似于亚马逊EMR框计算应用也出自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。