欢迎来到天天文库
浏览记录
ID:55932371
大小:537.64 KB
页数:8页
时间:2020-06-16
《最小方差优化初始聚类中心的K-means算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第40卷第8期计算机工程2014年8月Vo1.40NO.8ComputerEngineeringAugust2014。人工智能及识别技术·文章编号:1000-3428(2014)08.0205.07文献标识码:A中图分类号:TP18最小方差优化初始聚类中心的K.means算法谢娟英,王艳娥(陕西师范大学计算机科学学院,西安710062)摘要:传统K—means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K—means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类
2、中心的K—means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K.means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。关键词:聚类;K—means算法;方差;紧密度;初始聚类中心K—meansAlgorithmBasedonMinimumDeviationInitializedClusteringCentersXIEJuan—yin
3、g,WANGYan—e(SchoolofComputerScience,ShaanxiNormalUniversity,Xi’an710062,Chir/a)【Abstract】ToovercomethedeficienciesoftraditionalK—meansalgorithmwhoseclusteringisdependentontheseedschosenrandomlyandoftheimprovedK-meansalgorithmswhoseclusteringareunstablefortheparametersselectedarb
4、itrarily,anovelK-meansclusteringalgorithmisproposedinthispaper.ThisnewK—meansalgorithmadoptsthepatterninformationofexemplarsinadataset,andcomputesthedeviationforeachsample.Itusesthewellknownprinciplethatthedeviationofasampleaddressestheintensiveofexemplarsaroundit.Thelessthedevi
5、ationis,themoreexemplarsareintensivelygatheredaroundtherelatedsample.TheproposedK—meansalgorithmchoosesthefirstKsampleswiththeminimumdeviationandfarawayfromeachotherastheinitialclustercenterstoimprovetheperformanceofit.TheproposedK—meansalgorithmistestedonUCIdatasetsandonsynthet
6、icdatasetswithsomeproportionalnoises.TheexperimentalresultsdemonstratethattheproposednovelK—meansalgorithmnotonlycanachieveaverypromisingandstableclustering,butalsogettheimmunepropertywithnoisesinitsclustering.【Keywords】clustering;K—meansalgorithm;deviation;intensivedegree;initi
7、alizedclusteringcentersDOI:10.3969/j.issn.1000—3428.2014.08.039K—means算法是一种典型的基于划分的聚类算1概述法,该算法将一个含有n个样本的集合划分为个聚类分析是数据挖掘研究的一项重要技术,子集合,其中每个子集合代表一个类簇,同一类簇中属于无监督机器学习方法,它基于物以类聚原理,分的样本具有高度的相似性,不同类簇中的样本相似析和探索事物的内在联系和本质。在聚类分析过程度较低。K—means算法以其思路简洁、收敛速度快中,以相似度为基础,使得同一类簇中的模式具有较成为应用最广泛的聚类算法
8、。但传统K—means算法高的相似度,而不同类簇的模式具有很低的相似度。需要预先提供确定的类簇
此文档下载收益归作者所有