高维数据聚类方法综述

高维数据聚类方法综述

ID:34422414

大小:456.37 KB

页数:5页

时间:2019-03-06

高维数据聚类方法综述_第1页
高维数据聚类方法综述_第2页
高维数据聚类方法综述_第3页
高维数据聚类方法综述_第4页
高维数据聚类方法综述_第5页
资源描述:

《高维数据聚类方法综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第27卷第1期2010年1月计算机应用研究ApplicationResearchofComputersV01.27No.1Jan.2010___L—Ej同维数据聚类方法综述贺玲h,蔡益朝岫,杨征2(1.空军雷达学院四系a.计算机教研室;b.自动化教研室,武汉430019;2.国防科学技术大学信息系统与管理学院,长沙410073)摘要:总结了高维数据聚类算法的研究现状,分析比较了算法性能的主要差异,并指出其今后的发展趋势,即在子空间聚类过程中融入其他传统聚类方法的思想,以提高聚类性能。关键词:高维数据;聚类;子空间中图分类号:TP392文献

2、标志码:A文章编号:1001-3695(2010)01.0023.04doi:10.3969/j.issn.1001-3695.2010.01.006Surveyofclusteringalgorithmsforhigh—dimensionaldataHELingh,CAIYi.chao“,YANGZhen92(I.口.Computersc切地M孵&Re,胁chSection,6.AutomationTeaching&ResearchSection,Fourth眈舻删,AirForceRadarAcade-my,Wuhan430019,Ch/na

3、;2.SchoolofInformation两砸m世Management,NationalUniversityofD咖珊Techaology,Changsha410073。a;妇)Abstract:Thispaperprovidedasurveyofcurrentclusteringalgorithmsforhish-dimensionaldataatfirst.thenTIl8deaeom—p撕∞namongthemandidentifmedthenewdirectioninthefuture,whichwagthecombinationofs

4、ubspaceclusteringandothertypicalclusteringmethods.Keywords:Iligh-dimensionaldata;clustering;subspace聚类是一种重要的数据分析手段,它按照一定的要求和规律对数据集中的数据对象进行区分和分类,进而把一个没有类别标记的数据集按照某种准则划分成若干个子集(类),并使相似的数据对象尽可能地归为一类、不相似的数据对象尽可能地划分到不同的类中。通过聚类分析,能有效地发现隐含在数据集中的数据分布特性,从而为进一步充分、有效地利用数据奠定良好的基础。与此同时,随着信

5、息技术的迅猛发展,聚类所面临的不仅是数据量越来越大的问题,更重要的还是数据的高维度问题。换句话说,由于数据来源的丰富多样,图文声像甚至视频都逐渐成为聚类处理的目标对象,这些特殊对象的属性信息往往要从数十个甚至数百个方面来表现,其每一个属性都成为数据对象的一个维,对高维数据的聚类分析,已成为众多领域研究方向之一。·在与高维数据相关的应用领域,维度灾难(cu雠ofdimen—sionalit)r)是一个非常普遍的现象。这一术语最先由Bellman提出,它泛指在数据分析中遇到的由于变量(属性)过多而引起的一系列问题。此后又有很多研究者做了大量的研究致力

6、于减小甚至消除维度灾难对高维数据处理的影响¨’21。本文即以此为出发点,分析比较了高维数据聚类方法的研究现状,总结了其中存在的问题,并指出了今后的发展趋势。1现有的高维聚类方法数据挖掘领域对聚类算法的研究已经取得了~定的成果,很多传统的聚类算法在对一般的低维数据进行聚类处理时,通常能获得较为准确的结果,而对于高维数据,由于维度灾难的影响,若采用这些传统的算法进行聚类,往往得不到所期望的结果。为了满足不同应用领域中众多用户的需求,研究者们提出了很多针对高维数据的聚类方法,本文将它们分成基于降维的聚类、基于超图的聚类、子空间聚类和联合聚类,如图1所示

7、。高维r基于降维的聚类1-r基Ko于ho分ne形nS的O降FM维,PCA加s数据J基于超图的聚类聚类l子空问聚类CLIQUE,ENCLUS,MAFIA““~联合聚类图1高维数据聚类方法分类示意图1.1基于降维的聚类在很多需要处理高维数据的应用领域,对高维数据进行降维是常用的方法之一。直观地讲,降维就是通过把数据点映射到更低维的空间上以寻求数据的紧凑表示的一种技术,这种低维空间的紧凑表示将有利于对数据的进一步处理。降维问题的模型(S,JjIf)可定义如下:s={菇。}墨。是D维空间中的数据集合;降维映射』lf:s.乩l叫=J

8、If(*)称Y为菇的降

9、维表示。其中:工是d维空间的一个子集,且有d<

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。