基于异构hadoop平台的并行聚类算法研究

基于异构hadoop平台的并行聚类算法研究

ID:33530496

大小:2.65 MB

页数:52页

时间:2019-02-26

基于异构hadoop平台的并行聚类算法研究_第1页
基于异构hadoop平台的并行聚类算法研究_第2页
基于异构hadoop平台的并行聚类算法研究_第3页
基于异构hadoop平台的并行聚类算法研究_第4页
基于异构hadoop平台的并行聚类算法研究_第5页
资源描述:

《基于异构hadoop平台的并行聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchonParallelizationofClusteringAlgorithmBasedonHeterogeneousHadoopPlatformByWenjuanWeiSupervisor:Prof.LiMingWangComputerSoftwareandTheoryCollegeofInformationandEngineeringMay2014原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研

2、究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:毒黾支娟日期:70移年皇月彩Et学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或r4国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印,缩印或者其他复制手段保

3、存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者:旒j(揖日期:为I涉年夕月“日摘要在数据挖掘领域,聚类分析是一个重要且备受关注的研究方法,其中包含的基于密度的聚类算法由于可以有效的排除噪声数据,发现任意形状的簇而被广泛的研究。当今处于信息时代,从网络中可以获取各种各样的数据,从而导致存储在数据库中的数据量急剧增加,若再想从这些海量数据中获得有价值的信息和知识是非常困难的,这促使人们对大规模数据进行并行化研究。作为分布式计算、网格计算和

4、并行计算的发展,云计算成为了当前研究的热点。Hadoop平台是云计算的开源实现,主要是针对海量数据的并行研究,运行在由廉价的计算机构成的集群上,有效的节约计算成本,提高数据处理能力。本文主要研究如何在异构Hadoop平台上实现海量数据的聚类问题。首先针对异构Hadoop环境下仍采用均等的数据分配方法将严重降低MapReduce的性能,提出了比例数据分配策略。主要思想是通过计算异构集群中各节点的计算比率,将已经分割好的数据块重新进行组合,形成数个按比例划分的数据块,每个节点根据自身性能来选择所分配和存储的数据块,从而使异构Hadoop集群中各节点处理数

5、据的时间大致相同,降低节点之间数据的移动量。其次考虑到MapReduce默认的数据划分方法将割断数据本来之间的联系,提出了有交叉区域的数据划分方法。然后结合异构Hadoop平台,利用MapReduce化的编程思想,实现DBSCAN算法的并行化。最后,在搭建的异构Hadoop平台上分别对比例数据分配算法和DBSCAN算法的并行化进行测试。实验表明提出的比例数据方法可有效的提高MapReduce的性能,并使数据负载均衡:并行DBSCAN算法可以有效的提高聚类效率,具有很好的扩展性。关键词:异构Hadoop平台;并行聚类;DBSCAN算法;计算速率;比例数

6、据分配策略AbstractClusteranalysisisanimportantandconcernedresearchmethodinthefieldofdatamining.Thedensity—basedclusteringalgorithmhasbeenwidelystudiedbecauseitcaneffectivelyruleoutthenoisedataanddiscoverclustersofarbitraryshape.Intheinformationage,peopleCangetavarietyofdatafromthene

7、twork,resultinginasharpincreaseintheamountofdatainthedatabase,thenitisverydifficulttogetvaluableinformationandknowledgefromthesemassivedata,thispromptspeopletostudylarge—scaledataparallel.Asthedevelopmentofparallelcomputing,distributedcomputingandgridcomputing,cloudcomputinghas

8、becomeahotresearchtopic.Hadoopisanopensourceplatformof

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。