基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

ID:37418496

大小:619.50 KB

页数:8页

时间:2019-05-23

基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云_第1页
基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云_第2页
基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云_第3页
基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云_第4页
基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云_第5页
资源描述:

《基于hadoop平台的并行数据挖掘算法工具箱与数据挖掘云》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云高阳,杨育彬,商琳(南京大学计算机科学与技术系)一基于云计算的海量数据挖掘2008年7月,《CommunicationsoftheACM》杂志发表了关于云计算的专辑,云计算因其清晰的商业模式而受到广泛关注,并得到工业和学术界的普遍认可。目前工业界推出的云计算平台有Amazon公司的EC2和S3,Google公司的GoogleAppsEngine,IBM公司的BlueCloud,Microsoft公司的WindowsAzure,Salesforce公司的Sal

2、esForce,VMware公司的vCloud,Apache软件开源组织的Hadoop等。在国内,IBM与无锡市共建了云计算中心,中石化集团成功应用IBM的云计算方案建立起一个企业云计算平台。阿里巴巴集团于2009年初在南京建立电子商务云计算中心。严格的讲,云计算是一种新颖的商业计算模型,它可以将计算任务分布在大量互连的计算机上,使各种应用系统能够根据需要获取计算资源、存储资源和其他服务资源。Google公司的云平台是最具代表性的云计算技术之一,包括四个方面的主要技术:Google文件系统GFS、并行计算模型Ma

3、pReduce、结构化数据表BigTable和分布式的锁管理Chubby。基于以上技术,云计算可以为海量数据处理和分析提供一种高效的计算平台。简单来说,将海量数据分解为相同大小、分布存储,然后采用MapReduce模型进行并行化编程,这种技术使Google公司在搜索引擎应用中得到了极大的成功。然而MapReduce计算模型适合结构一致的海量数据,且要求计算简单。对于大量的数据密集型应用(如数据挖掘任务),往往涉及到数据降维、程序迭代、近似求解等等复杂的算法,计算非常困难。因此,基于云计算的海量数据挖掘技术成为了工

4、业界和学术界共同关心的热点技术之一。分布式计算是解决海量数据挖掘任务,提高海量数据挖掘效率的方法之一。目前,分布式数据挖掘技术主要有基于主体(agent)的分布式数据挖掘、基于网格的分布式数据挖掘、基于云的分布式数据挖掘等。海量数据挖掘另一个核心问题是数据挖掘算法的并行化。图1给出基于云计算的海量数据挖掘服务的层次结构图。图1基于云计算的海量数据挖掘服务的层次结构图中国移动研究院从2007年3月份启动“大云”的研发工作。2008年,中国移动研究院已建设有256个节点、1024个CPU、256TB存储的云平台。中国

5、移动“大云”平台主要为数据挖掘、系统评估、搜索等应用提供计算服务。在开源Hadoop云平台上,中科院计算所研制了并行数据挖掘工具平台PDMiner。针对海量数据,云计算分别从数据挖掘模式和方法等方面进行相关的研究。与此同时,中科院深圳先进研究院还研制了一个分布式数据挖掘系统AlphaMiner。本文首先讨论了海量数据挖掘的研究热点;其次基于开放的Hadoop平台,讨论并行数据挖掘算法工具箱和数据挖掘云的设计。二技术热点云计算是一种资源利用模式,它能以简便的途径和以按需的方式通过网络访问可配置的计算资源,快速部署资

6、源。在这种模式中,应用、数据和资源以服务的方式通过网络提供给用户使用。大量的计算资源组成资源池,用于动态创建高度虚拟化的资源以供用户使用。但对于海量数据分析任务,云平台缺乏针对海量数据挖掘和分析算法的并行化实现。因此面向海量数据挖掘的新型云计算模式,主要包括海量数据预处理、适合于云计算的海量数据挖掘并行算法、新型海量数据挖掘方法和云计算数据挖掘工具箱等技术。(1)海量数据预处理。为了适合并行处理,云平台应可以提供海量数据的概念分层组织以及海量数据的并行加载;并实现高维度约减和数据稀疏化技术,提高数据管理和挖掘的效

7、率。(2)适合于云计算的海量数据挖掘并行算法。海量数据挖掘的关键问题是数据挖掘算法的并行化。而云计算采用MapReduce等新型计算模型,这意味着现有的数据挖掘算法和并行化策略不能直接应用于云计算平台下进行海量数据挖掘,需要进行一定的改造。因此需要深入研究数据挖掘算法的并行化策略,继而实现高效的云计算并行海量数据挖掘算法。并行海量数据挖掘算法包括并行关联规则算法、并行分类算法和并行聚类算法,用于分类或预测模型、数据总结、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现等。在此基础上,针对海量数据挖

8、掘算法的特点对已有的云计算模型进行优化和扩充,使其更适用于海量数据挖掘。(3)新型海量数据挖掘方法。新型海量数据挖掘方法包含面向同构数据、异构数据和跨域数据的不同的数据挖掘新方法。在同构海量数据挖掘系统中,各个节点存储的数据都具有相同的属性空间。云平台采用集成学习的方式来生成最终的全局预测模型。并在同构节点的元学习基础上,实现数据挖掘增量学习方法,已满足实时要求;在异构海

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。