欢迎来到天天文库
浏览记录
ID:46280611
大小:834.92 KB
页数:7页
时间:2019-11-22
《分类属性数据的泛化中心聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第23卷第6期运筹与管理Vol.23,No.62014年12月OPERATIONSRESEARCHANDMANAGEMENTSCIENCEDec.2014分类属性数据的泛化中心聚类算法武森,张桂琼,潘静,全敏(北京科技大学东凌经济管理学院,北京100083)摘要:针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类
2、结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。关键词:聚类算法;泛化中心;分类属性;K-modes中图分类号:TP311文章标识码:A文章编号:1007-3221(2014)06-0037-07GeneralizedCentroidsClusteringAlgorithmforCategoricalDataWUSen,ZHANGGui-qiong,PANJing,QUANMin(DonglingSchoolofEconomicsandManagement,
3、UniversityofScienceandTechnologyBeijing,Beijing100083,China)Abstract:Anewpartitionalgorithmisproposedtoclustercategoricaldatabasedongeneralizedcentroid,whichisdifferentfromclassicpartitionclusteringalgorithmsthathavethedisadvantageofusingonlyonecentroidtorepresentacluster.Thealgorithmdefine
4、sanewconcept“generalizedcentroid”torepresentacluster,whichimpliesthedatadistributionfeature;proposesthenewdistancemeasuresnotonlybetweengeneralizedcentroidsbutalsobetweenclusters;andfurthergivestheapproachtogetthegeneralizedcentroidsandtoassigntheobjectstoclustersbasedonthegeneralizedcentro
5、ids,whichsupportsthefactthatthealgorithmgetstheclusteringresultnormallywithonlyoncepartitioniteration.Thegeneralizedcentroidsalgorithmisappliedtofourbenchmarkdata-setsandcomparedtofamouspartitionclusteringalgorithmK-modesanditstwoimprovedalgorithms.Experimen-talresultsrevealthatthegeneraliz
6、edcentroidsalgorithmhashigherclusteringaccuracyandlessiterationtimes.Itiseffectiveandfeasible.Keywords:clusteringalgorithm;generalizedcentroid;categoricalattribute;K-modes0引言[1]聚类是一种基本的人类行为,在悠久的人类发展史中发挥着重要且不可替代的作用。其将数据对象分成若干个类或簇(cluster),使得同一类中的对象具有较高的相似度,而不同类中的对象差异度较大,进而识别隐藏在数据中的内在结构,既可作为独
7、立的方法来分析数据的分布情况,也广泛用作其他分析方[2][3][4][5]法的数据预处理工具。聚类研究是信息侦查、模式识别、复杂网络分析和科学发展评价等领域非常重要的课题,并随着数据库收集数据的大量增长而更受关注。目前存在的聚类算法主要分为划分式[6]聚类、层次化聚类、基于网格和密度的聚类及其他聚类。划分式聚类源自最为经典也最为著名的K-means算法,其核心思想是找到k个类中心使得每一个数收稿日期:2013-02-02基金项目:国家自然科学基金资助项目(71271027);中央高校基本科研业务费专项资
此文档下载收益归作者所有