欢迎来到天天文库
浏览记录
ID:57924621
大小:409.54 KB
页数:6页
时间:2020-04-14
《基于信息增益的模糊K-prototypes聚类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、CN43—1258/TP计算机工程与科学第37卷第5期2015年5月ISSN1007—13OXComputerEngineering8LScienceVo1.37,No.5,May.2015文章编号:1007—13OX(2O15)05—1009—06基于信息增益的模糊K-prototypes聚类算法欧阳浩,王智文,戴喜生,刘智琦(1.广西科技大学计算机学院,广西柳州545006;2.广西科技大学电气与信息工程学院,广西柳州545006)摘要:K-prototypes聚类算法结合了K-means算法和K-mo
2、des算法,可用于分析混合属性的数据对象。传统的K—prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。关键词:聚类;信息增益;模糊K
3、-prototypes算法;混合型数据中图分类号:TP391文献标志码:Adoi:10.3969/i.issn.1007—13OX.2015.05.023AfuzzyK-prototypesclusteringalgorithmbasedoninformationgainOUYANGHao,WANGZhi—wen,DAIXi—sheng,LIUZhi—qi(1_SchoolofComputer,GuangxiUniversityofScienceandTechnology,Liuzhou545006:2.S
4、choolofElectricalandInformationEngineering,GuangxiUniversityofScienceandTechnology,Liuzhou545006,China)Abstract:K—prototypesclusteringalgorithmscombineK-meansandK-modestoanalyzemixeddataobjects.ClassicK—prototypesclusteringalgorithmsdon’tconsidertheeffectd
5、egreeofeachattributetothelastclusteringresultswhencalculatingthedissimilarityofdataobject.Butintherealworld,theim—portanceofeachattributevaries.Inthispaperweuseinformationgainoftheinformationtheorytogettheweightofeachattribute.Theseweightsareusedtogetabett
6、erclusteringresultwhenwecalculatethedissimilarity.Inordertoimprovethefuzzyability,theproposedalgorithmexploitsthefuzzytheorytogetabettercapabilityfordealingwithanti—noiseanduncertainproblems.ClusteringexperimentsonfourUCIdatasetsvalidatetheeffectivenessofo
7、uralgorithm.Keywords:clustering;informationgain;fuzzyK—prototypes;mixeddata对象只能全是由连续属性构成,或者全是由分类属1引言性构成[2],而现实世界中大多数的数据对象,既具有连续属性同时也有分类属性。针对这个问题,聚类分析作为数据挖掘中的一个重要研究方HuangZ在文献[2]中提出了K-prototypes算法,向,是一个将数据对象划分为多个子集的过程Ⅲ。此算法结合了可分析连续属性的K—means算法,子集内部的对象有着高度的相似性
8、,不同子集的对以及可分析分类属性的K-modes算法。在此基础象有着高度的相异性。一般聚类算法分析的数据上,文献[3~8]对经典的K—prototypes算法做出*收稿日期:2014—09—10;修回日期:2014-11一O4蒌技拿术项研究目项:国目家(L自X然2科学基金资助项目(61462008,61364006);广西自然科学基金资助项目(2o13GxNsFAAo19336);广西高校科学014190,YB2
此文档下载收益归作者所有