基于信息增益的模糊K-prototypes聚类算法-论文.pdf

基于信息增益的模糊K-prototypes聚类算法-论文.pdf

ID:57924621

大小:409.54 KB

页数:6页

时间:2020-04-14

基于信息增益的模糊K-prototypes聚类算法-论文.pdf_第1页
基于信息增益的模糊K-prototypes聚类算法-论文.pdf_第2页
基于信息增益的模糊K-prototypes聚类算法-论文.pdf_第3页
基于信息增益的模糊K-prototypes聚类算法-论文.pdf_第4页
基于信息增益的模糊K-prototypes聚类算法-论文.pdf_第5页
资源描述:

《基于信息增益的模糊K-prototypes聚类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、CN43—1258/TP计算机工程与科学第37卷第5期2015年5月ISSN1007—13OXComputerEngineering8LScienceVo1.37,No.5,May.2015文章编号:1007—13OX(2O15)05—1009—06基于信息增益的模糊K-prototypes聚类算法欧阳浩,王智文,戴喜生,刘智琦(1.广西科技大学计算机学院,广西柳州545006;2.广西科技大学电气与信息工程学院,广西柳州545006)摘要:K-prototypes聚类算法结合了K-means算法和K-mo

2、des算法,可用于分析混合属性的数据对象。传统的K—prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。关键词:聚类;信息增益;模糊K

3、-prototypes算法;混合型数据中图分类号:TP391文献标志码:Adoi:10.3969/i.issn.1007—13OX.2015.05.023AfuzzyK-prototypesclusteringalgorithmbasedoninformationgainOUYANGHao,WANGZhi—wen,DAIXi—sheng,LIUZhi—qi(1_SchoolofComputer,GuangxiUniversityofScienceandTechnology,Liuzhou545006:2.S

4、choolofElectricalandInformationEngineering,GuangxiUniversityofScienceandTechnology,Liuzhou545006,China)Abstract:K—prototypesclusteringalgorithmscombineK-meansandK-modestoanalyzemixeddataobjects.ClassicK—prototypesclusteringalgorithmsdon’tconsidertheeffectd

5、egreeofeachattributetothelastclusteringresultswhencalculatingthedissimilarityofdataobject.Butintherealworld,theim—portanceofeachattributevaries.Inthispaperweuseinformationgainoftheinformationtheorytogettheweightofeachattribute.Theseweightsareusedtogetabett

6、erclusteringresultwhenwecalculatethedissimilarity.Inordertoimprovethefuzzyability,theproposedalgorithmexploitsthefuzzytheorytogetabettercapabilityfordealingwithanti—noiseanduncertainproblems.ClusteringexperimentsonfourUCIdatasetsvalidatetheeffectivenessofo

7、uralgorithm.Keywords:clustering;informationgain;fuzzyK—prototypes;mixeddata对象只能全是由连续属性构成,或者全是由分类属1引言性构成[2],而现实世界中大多数的数据对象,既具有连续属性同时也有分类属性。针对这个问题,聚类分析作为数据挖掘中的一个重要研究方HuangZ在文献[2]中提出了K-prototypes算法,向,是一个将数据对象划分为多个子集的过程Ⅲ。此算法结合了可分析连续属性的K—means算法,子集内部的对象有着高度的相似性

8、,不同子集的对以及可分析分类属性的K-modes算法。在此基础象有着高度的相异性。一般聚类算法分析的数据上,文献[3~8]对经典的K—prototypes算法做出*收稿日期:2014—09—10;修回日期:2014-11一O4蒌技拿术项研究目项:国目家(L自X然2科学基金资助项目(61462008,61364006);广西自然科学基金资助项目(2o13GxNsFAAo19336);广西高校科学014190,YB2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。