一种基于参考点和密度的快速聚类算法

一种基于参考点和密度的快速聚类算法

ID:34008178

大小:489.54 KB

页数:7页

时间:2019-03-03

一种基于参考点和密度的快速聚类算法_第1页
一种基于参考点和密度的快速聚类算法_第2页
一种基于参考点和密度的快速聚类算法_第3页
一种基于参考点和密度的快速聚类算法_第4页
一种基于参考点和密度的快速聚类算法_第5页
资源描述:

《一种基于参考点和密度的快速聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2003/14(06)1089©2003JournalofSoftware软件学报Vol.14,No.6∗一种基于参考点和密度的快速聚类算法1+11,211马帅,王腾蛟,唐世渭,杨冬青,高军1(北京大学计算机科学技术系,北京100871)2(北京大学视觉与听觉信息处理国家重点实验室,北京100871)AFastClusteringAlgorithmBasedonReferenceandDensity1+11,211MAShuai,WANGTeng-Jiao,TANGShi-We

2、i,YANGDong-Qing,GAOJun1(DepartmentofComputerScienceandTechnology,PekingUniversity,Beijing100871,China)2(NationalLaboratoryonMachinePerception,PekingUniversity,Beijing100871,China)+Correspondingauthor:Phn:86-10-62756374,E-mail:mashuai@db.pku.edu.cn;mas

3、huai@cis.pku.edu.cnhttp://www.pku.edu.cnReceived2002-04-19;Accepted2002-07-02MaS,WangTJ,TangSW,YangDQ,GaoJ.Afastclusteringalgorithmbasedonreferenceanddensity.JournalofSoftware,2003,14(6):1089~1095.http://www.jos.org.cn/1000-9825/14/1089.htmAbstract:Th

4、eefficiencyofdataminingalgorithmsisstronglyneededwithdatabecominglargerandlarger.Density-Basedclusteringanalysisisonekindofclusteringanalysismethodsthatcandiscoverclusterswitharbitraryshapeandisinsensitivetonoisedata.Inthispaper,anewkindofclusteringal

5、gorithmthatiscalledCURD(clusteringusingreferencesanddensity)ispresented.ThecreativityofCURDiscapturingtheshapeandextentofaclusterbyreferences,andthenanalyzesthedatabasedonthereferences.CURDkeepstheabilityofdensitybasedclusteringmethod’sgoodfeatures,an

6、ditcanreachhighefficiencybecauseofitslineartimecomplexity,soitcanbeusedinminingverylargedatabases.BoththeoryanalysisandexperimentalresultsconfirmthatCURDcandiscoverclusterswitharbitraryshapeandisinsensitivetonoisedata.Inthemeanwhile,itsexecutingeffici

7、encyismuchhigherthantraditionalDBSCANalgorithmbasedonR*-tree.Keywords:clustering;density;highdimension;reference;datamining摘要:数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clusteringusingreferencesanddensity

8、)聚类算法,其创新点在于,通过参考点来准确地反映数据的空间几何特征,然后基于参考点对数据进行分析处理.CURD算法保持了基于密度的聚类算法的上述优点,而且CURD算法具有近似线性的时间复杂性,因此CURD算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CURD算法具有处∗SupportedbytheNationalHigh-TechResearchandDevelopmentPlanofChinaunderGrantNo.2002AA483440(国家高技术研究发展计划(86

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。