基于hadoop的聚类算法的研究与应用

基于hadoop的聚类算法的研究与应用

ID:33127294

大小:1.68 MB

页数:63页

时间:2019-02-21

基于hadoop的聚类算法的研究与应用_第1页
基于hadoop的聚类算法的研究与应用_第2页
基于hadoop的聚类算法的研究与应用_第3页
基于hadoop的聚类算法的研究与应用_第4页
基于hadoop的聚类算法的研究与应用_第5页
资源描述:

《基于hadoop的聚类算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安建筑科技大学硕士学位论文基于Hadoop的聚类算法的研究与应用专业:信号与信息处理硕士生:尹超指导教师:王民副教授摘要随着计算机信息技术的迅猛发展,人们能够接触的信息越来越多,数据的重要性也与日俱增。而数据具有海量、多样化、异构等特征,使得传统的聚类分析方法很难满足对海量数据的分析和处理,因此高效的聚类技术应运而生。本文首先综述了现有的聚类技术与并行化编程模型MapReduce,随后提出了基于MapReduce的并行化聚类算法。这一算法建立在MapReduce并行框架的基础之上,可以通过分布式计算框

2、架,更好地将原本计算复杂度较高、内存消耗较大的聚类算法直接应用于大规模数据聚类上。(1)当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,并且聚类效果良好;(2)对于大规模数据库中的的重复图片,本文首先使用颜色直方图细化的方法从图像中提取特征

3、值,然后使用基于MapReduce的k-means算法对特征值进行聚类,最后再使用重复数据删除技术对图片进行清理,以达到节约磁盘空间,提高写入性能和节约网络带宽的目的;(3)本文对MapReduce和MPI的k-means算法进行了设计,并对其性能进行了深入的分析。关键词:聚类;MapReduce;CURE;Binary-Positive;重复删除技术;直方图西安建筑科技大学硕士学位论文ResearchandApplicationofClusteringAlgorithmBasedonHadoopMaj

4、or:SignalandInformationProcessingName:YinChaoInstructor:Prof.WangMinABSTRACTWiththerapiddevelopmentofcomputerinformationtechnology,theinformationwhichpeoplecouldcontactbecomemoreandmore,andtheimportanceofthedataisalsodailyontheincrease.Dataischaracterize

5、dbydiverse,heterogeneousandmassive.Thetraditionalclusteranalysismethodisdifficulttomeettheanalysisandprocessingofthemassivedata,soefficientclusteringtechnologyarisesatthehistoricmoment.Thispaperfirstreviewedtheexistingclusteringtechniquesandparallelprogr

6、ammingmodelMapReduce.SubsequentlyproposedaparallelclusteringalgorithmbasedonMapReduce.ThisalgorithmisbuiltonMapReduceparallelframework,sotheoriginalclusteringalgorithmwhichislargememoryconsumptionandhighcomputationalcomplexitycouldbedirectlyappliedtolarg

7、e-scaledataclusteringbyusingdistributedcomputingframework.(1)WhentheCUREalgorithmisdealtwithamassofunevendata,fortheproblemofrandomsamplecannotberepresentative,thepaperproposedarobustparallelimprovedalgorithm.Thealgorithmusedthebinary-Positivealgorithmto

8、gettheeffectivepropertiesoftheoriginaldata,andusedMapReduceparallelframeworktoclustertheefficientdata.Thisalgorithmhasrealizedtheaccurateandefficienttrade-off.TheexperimentalanalysisshowedthattheCUREalgorithmhasimprovedthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。