欢迎来到天天文库
浏览记录
ID:55399217
大小:281.80 KB
页数:4页
时间:2020-05-15
《基于均值与最大距离乘积的初始聚类中心优化K-means算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、总第305期计算机与数字工程Vo1.43No.32015年第3期Computer&DigitalEngineering379基于均值与最大距离乘积的初始聚类中心优化K-means算法段桂芹(广东松山职业技术学院计算机系韶关512126)摘要针对K—means算法随机选择初始聚类中心所出现的样本聚类结果随机性强、稳定性低、容易陷入局部最优和得不到全局最优解等问题,提出一种基于均值与最大距离乘积的初始聚类中心优化K-means算法。该算法首先选择距离样本集均值最远的数据对象加入聚类中心集合,再依次将与样本集均值和当前聚类中心乘积最大的数据对象加入聚类中心集合。标准数据集上的实验结果表明,与原始
2、K-means的算法以及另一种改进算法相比,新提出的聚类算法具有更高的准确率。关键词K—means聚类算法;均值;最大距离乘积;数据挖掘中图分类号TP301.6DOI:10.3969/j.issn1672—9722.2015.03.008AutomaticGenerationCloudOptimizationBasedonGeneticAlgorithmDUANGuiqin(DepartmentOfComputerScience,GuangdongSongshanPolytechnicCollege,Shaoguan512126)AbstractAimingatsolvingtheprob
3、lemofclusteringresultsrandomness,lowstability,easytofallintolocaloptimumandnoglobaloptimalsolutionofK-meansalgorithmrandomlychoseninitialclustercenters,akindofinitialclustercenteroptimizationK-meansalgorithmbasedontheproductofthemeanandmaximumdistanceisputforward.Firstly,thefarthestdistancemeansam
4、plesetofdataobjectsarechosentojointheclustercenterset,thenthesamplemeanandmaximumcurrentclustercenterproductdataobjectaresetinturntojointheclustercentercollection.Experimentalresultsonthestandardda—tasetsshowthat,comparedwiththeoriginalK-meansalgorithmandanotherimprovedalgorithm,theproposednewclus
5、te—ringalgorithmhasahigheraccuracyrate.KeyWordsK-meansclusteringalgorithm,mean,maximumdistanceproduct,dataminingClassNumberTP3O】.6作为一个独立的工具来获得数据的分布情况、观察1引言每个类的特点、对特定的类进行更深入的分析。同聚类就是将数据对象组成不同的类(或簇),使时,它也可以作为其他算法的预处理步骤。聚类技得不同类对象之间的相似性尽量小,而同类对象之术的种类很多,主要有划分方法、层次方法、基于密间的相似性尽量大E13。聚类分析是一种探索性的度的方法、基于网格的
6、方法、基于模型的方法。分析,在分类的过程中,人们不必事先给出一个分K—means算法是一种基于划分的聚类算法,具类的标准,聚类分析能够从样本数据出发,自动进有聚类速度快、易实现、对大型数据集能进行高效行分类。作为数据挖掘的一个功能,聚类分析可以分类的特点。但是K—means算法也有其不足,例收稿日期:2014年9月13日,修回日期:2014年1O月2O日基金项目:2013年广东省高职教育教学指导委员会教改项目(编号:XXJS-2013—2041);广东松山职业技术学院技术应用重点课题(编号:2012一JYKY-19)资助。作者简介:段桂芹,女,硕士,讲师,研究方向:数据挖掘、多媒体技术。3
7、80段桂芹:基于均值与最大距离乘积的初始聚类中心优化K—means算法第43卷如传统的K—means算法在聚类中心初始化时l2一,2.3K—means算法的研究现状初始中心的选择是随机的,因此会产生多种不同的目前已有大量的文献针对K—means算法的初聚类结果,甚至可能得到无效的聚类结果l_3]。针对始聚类中心点的选取进行了研究,例如:翟东海Kmeans算法的上述缺陷,本文提出一种基于均值等l_7]基于距离最远的样本点最
此文档下载收益归作者所有