欢迎来到天天文库
浏览记录
ID:37535586
大小:1.91 MB
页数:49页
时间:2019-05-24
《(最新)分布式聚类算法研究及其应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、南昌大学硕士学位论文分布式聚类算法研究及其应用姓名:徐军莉申请学位级别:硕士专业:计算机软件与理论指导教师:喻国平20091201摘要摘要聚类分析是数据挖掘领域的一项重要研究内容,聚类算法在金融业、保险业、市场营销、网络安全、科学决策等方面的应用越来越广泛。目前已有的聚类算法大多只适用于集中式数据的聚类。而实际中的数据却是分布在不同的站点上,如果使用传统的聚类算法从这些分布式数据中提取信息,就必须把这些数据合并到一个中心站点上。由于传输速度和安全因素的限制,把各站点的数据全部集中到某一个中心站点上是十分困难的。而且所有站点数据集中在一起,数
2、据量会非常庞大,聚类效率会显著降低。本文对分布式聚类方法作了一些较深入的研究,取得了如下成果:(1)对聚类进行了较系统而完整的分析,包括了聚类的概念、聚类的分类、聚类的步骤和聚类的度量方法。(2)对分布式数据挖掘及分布式聚类作了具体的介绍,包括分布式数据挖掘的特点、任务及策略;分布式聚类算法研究现状及研究方向。(3)提出了基于中心点和密度的聚类算法CDBC,该算法CDBC时间效率很高,而且聚类的质量也较好。实验证明CDBC算法是一种很有效的聚类算法。将CDBC应用于分布式环境,提出了CDBDC算法。CDBDC与CDBC算法类似,具有很高的时
3、间效率。(4)将CDBC和CDBDC聚类算法分别应用于客户细分和入侵检测中,通过实验数据分析,得到了较好的效果。关键词:数据挖掘;聚类分析;分布式聚类;AbstractABSTRACTClusteranalysisisallimportantresearchareaindatamining。Nowadaysclusteringhasbecomeanincreasinglywidetaskinmodemapplicationdomainssuchasfinance,insurance,marketanalysis,networksecurit
4、y,sciencedecision,andSOon.Existingclusteringalgorithmsareonlysuitableforcentralizedenvironment.However,dataaredistributedatdifferentsites.Inordertoextractinformationfromthesedistributeddatawithtraditionalclusteringalgorithm,thedistributeddatahavet0bemergedatacentralsiteand
5、thenclustered.Itissuchahardtopictocollectthesedistributeddataduetotherestrictionoftransmissionspeedandsafetyfactor.Itdecreasesclusteringefficiencyinevidenceandresultsinhugenessdatasetwhilecentralizeallthelocaldata.Distributedclusteringanditsapplicationsalestudied,andinnova
6、tivecontributionsareachievedasfollows:(1)Clusteringisanalyzed,includingconception,class,stepandmeasurementofclustering.(2)Distributeddatamininganddistributedclusteringarentroduced,includingfeatures,taskandstrategyofdistributeddatamining;researchstatusandresearchdirectionso
7、fdistributedclusteringalgorithm.(3)CDBCalgorithmisproposed,thetimeefficiencyofthisalgorithmishigh,andtheeffectofclusteringiswell.CDBCisagoodclusteringalgorithmwhichisverifiedexperiment.CDBCalgorithmisappliedtodistributedenvironment,CDBDCalgorithmisproposed.Thetwoalgorithms
8、issimilar,havehi曲timeefficiency.(4)CDBCandCDBDCalgorithmsarerespectivelyappliedtocustomer
此文档下载收益归作者所有