基于Hadoop平台的分布式EM聚类算法

基于Hadoop平台的分布式EM聚类算法

ID:36554985

大小:4.01 MB

页数:53页

时间:2019-05-12

基于Hadoop平台的分布式EM聚类算法_第1页
基于Hadoop平台的分布式EM聚类算法_第2页
基于Hadoop平台的分布式EM聚类算法_第3页
基于Hadoop平台的分布式EM聚类算法_第4页
基于Hadoop平台的分布式EM聚类算法_第5页
资源描述:

《基于Hadoop平台的分布式EM聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:TP391UDC:620密级:t口匀义:学校代码:诃4£解为尤李硕士学位论文(学历硕士)公开10094基于Hadoop平台的分布式EM聚类算法DistributedEMClusteringAlgorithmBasedonHadoopPlatform作者姓名:指导教师:学科专业:研究方向:论文开题日期:苏嘉庚赵书良教授计算机应用技术智能信息处理与网络信息系统2013年3月27日学位论文原创性声明JDJIJMIM)IJJIMIIIIJY2563693本人所提交的学位论文《基于Hadoop平台的分布式EM聚类算法》,是在导师的指导下,独立进行研

2、究工作所取得的原创性成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中标明。本声明的法律后果由本人承担。论文作者。签鼽嘉嘉衷指导教师确认。签孙2.oJt.阵-5月≯Z日】Df争年占月2彳日学位论文版权使用授权书越为&本学位论文作者完全了解河北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学

3、位论文在——年解密后适用本授权书)论文作者c签孙,芳喜灰指导教师c签孙蟛蕾zD/午年岁月≯‘日2纠净年岁月巧日11摘要随着“大数据"概念的出现,国内外研究学者越发集中关注如何从大数据中获取有价值的知识,如何运用智能算法从海量数据中发现有意义的模式和规则以及如何借助有效工具从数据海洋中提取对领导决策具有支撑和引导作用的信息。聚类分析作为数据挖掘领域的一个重要研究方向,是一种将数据对象划分成若干簇或类的过程,使同一类中的对象高度相似,而不同类之间的对象具有较大的差异。然而随着数据规模的迅猛增长,单机串行的聚类算法遇到了瓶颈,主要表现在数据无法一次性装入内

4、存、执行效率差、无法实现并行处理等方面。Hadoop分布式计算技术的出现及发展为解决这类问题提供了一种有效的手段。Hadoop分布式平台通过HDFS(分布式文件系统)存储海量数据,并结合MapReduce编程框架实现对大规模数据集的并行处理。科研工作者和用户可以根据串行聚类算法的特点,结合MapReduce编程框架,在不需要过多了解Hadoop平台底层细节的情况下,能够很容易的实现算法的并行化,从而提高算法的执行效率,帮助人们从大数据中获取有价值的信息和知识。在聚类分析中,合理设置初始化参数是基于高斯混合模型的EM聚类算法的关键指标。初始化参数的选取

5、和设置不仅会影响算法的迭代次数和算法执行的复杂度,而且会影响到最终的聚类结果。因此,一个良好的初始化参数选取机制可以在减少迭代次数的同时,提高聚类结果的准确度。本文通过对随机初始化、K均值初始化、层次聚类初始化等传统初始化方法进行分析研究,提出了基于密度的Me玛eC方法。该方法依据每类样本中心部位密度大、边缘部位密度小的特点,将各类中心部位的最优候选中心提取出来进行加权合并,从而得到高斯混合模型的参数值。通过实验和分析表明,该方法是高效、可行的。针对传统EM算法中存在数据需要多次载入内存、并行性较差以及执行效率不高等问题,本文将串行EM算法与MapR

6、educe框架结合,给出了基于Hadoop平台的分布式EM聚类算法,实现了EM算法的分布式并行处理方案。该算法通过合理的冗余操作,采用MeanMapReduce和VarMapReduce两个阶段分步计算各类的均值和协方差矩阵,达到对海量数据的分布式处理。最后通过在Hadoop集群上对不同大小的数据集进行试验对比,结果表明随着数据节点的增加,算法的执行速度得到了极大提高。算法实现了大数据并行聚类分析和挖掘,显著提高了EM算法处理海量数据集的执行效率。TTTIV关键词:EM聚类算法;Hadoop平台;MapReduce框架;高斯混合模型AbstractW

7、iththeadventofBigData,researchersbothdomesticandoverseasincreasinglyputemphasisonhowtoobtainvaluableknowledgefromlargedata,howtodiscovermeaningfulpatternsandrulesfrommassivedatabyintelligentalgorithms,andhowtoextractguidanceandleadershipdecision-makinginformationfromdataoceanwi

8、theffectivetools.Asanimportantbranchofdataminingfield,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。