欢迎来到天天文库
浏览记录
ID:18573169
大小:289.32 KB
页数:5页
时间:2018-09-19
《自适应特征权重的K_means聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第23卷第6期计算机技术与发展Vol.23No.62013年6月COMPUTERTECHNOLOGYANDDEVELOPMENTJune2013自适应特征权重的K-means聚类算法12李四海,满自斌(1.甘肃中医学院,甘肃兰州730000;2.兰州理工大学,甘肃兰州730050)摘要:为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则
2、调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。关键词:K-means;医学数据聚类;自适应特征权重;聚类评价;混淆矩阵中图分类号:TP181文献标识码:A文章编号:1673-629X(2013)06-0098-04doi:10.3969/j.issn.1673-629X.2013.06.025K-meansClusteringAlgorithmBasedonAda
3、ptiveFeatureWeighted12LISi-hai,MANZi-bin(1.GansuCollegeofTraditionalChineseMedicine,Lanzhou730000,China;2.LanzhouUniversityofTechnology,Lanzhou730050,China)Abstract:InordertoimprovetheaccuracyandstabilityoftraditionalK-meansalgorithmonmedicaldataclustering,propos
4、edanadap-tivefeatureweightedK-meansclusteringalgorithmnamedAFW-K-means.Firstly,initialclusteringcenterwaschosenbycalculatingmeansquaredeviationoffeatureattribute.Then,accordingtotheresultsofeachiteration,thefeatureattributeweightindistanceformulaismodifiedbasedon
5、theprincipleofminimum-in-cluster-distanceandmaximum-between-cluster-distance,whichcanreflectthetruedistanceamongthedatapointsintheEuclideanspace.Finally,thevalidityoftheproposedapproachisdemonstratedbytheexperimentofUCIdatasetsuchasBreastCancerWisconsindataset.Th
6、eresultsshowedthatthealgorithmhashigherprecisionofpredictionandbetterstabilitythantraditionalK-meansalgorithm.Keywords:K-means;medicaldataclustering;AFW;clusterevaluation;confusionmatrix0引言性在计算欧氏距离时的重要性相同,这种对属性重要!聚类算法将给定的一个数据集按照特定的距离性不加区分的处理方法很可能导致数据点在欧氏空间度量划分为多个
7、类,使得同一类中的对象之间尽可能中产生距离失真:如果空间中的两点在重要属性上距相似,不同类中的对象之间尽可能相异。聚类算法广离很近,但由于其他无关属性对距离的放大作用,这两[7]泛应用于语音识别、图像分割、机器视觉、数据压缩、基点在欧氏空间中很可能被度量为最远。由此可见,[1,2]因工程及信息检索等领域。通过对属性赋予不同的特征权值,能够更准确地反映在各种聚类算法中,基于划分的传统K-means算对象之间的相似性并改善聚类性能。法由于简单、易于实现且能对大型数据集进行有效分目前,度量属性对聚类重要性的方法有多种:基于[8
8、,9][10]类而得到广泛使用。但该算法的聚类结果对初始中心Fisher线性判别率、基于属性信息熵、基于小波点非常敏感,不当的初始聚类中心将导致聚类结果不低频能量熵等方法。由于K-means算法是迭代算法,稳定。为了选择合适的初始聚类中心,国内外进行了使用固定的特征权值进行相似性度量还不能很好地发[3~6]大量研究。
此文档下载收益归作者所有