基于聚类数和初始值的K-means算法改进研究.pdf

基于聚类数和初始值的K-means算法改进研究.pdf

ID:52211549

大小:396.91 KB

页数:5页

时间:2020-03-25

基于聚类数和初始值的K-means算法改进研究.pdf_第1页
基于聚类数和初始值的K-means算法改进研究.pdf_第2页
基于聚类数和初始值的K-means算法改进研究.pdf_第3页
基于聚类数和初始值的K-means算法改进研究.pdf_第4页
基于聚类数和初始值的K-means算法改进研究.pdf_第5页
资源描述:

《基于聚类数和初始值的K-means算法改进研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第4期组合机床与自动化加工技术NO.42011年4月ModularMachineTool&AutomaticManufacturingTechniqueApr.2011文章编号:1001—2265(2011)04—0042—05基于聚类数和初始值的K—means算法改进研究屈新怀,高万里,丁必荣,李朕(合肥工业大学机械与汽车工程学院,合肥230009)摘要:原始的K.means算法,随机生成初始质心,事先给定聚类数k,在该前提下进行聚类,大大降低了聚类的效果。文章是对原始K—means算法的改进,提出了一种基于密度选取初始质心和采取遗传算法优化聚类数而的算法。该算法在一定程度上解决了初始质心和

2、聚类数k对聚类精度和效率的影响,提高了聚类的准确率。最后文章通过实验证明了改进算法的有效性。关键词:K—means算法;初始质心;聚类数k中图分类号:TP301.6文献标识码:ATheK-meansAlgorithmImprovementBaseontheNumberofClusteringkandInitialCentroidQUXin-huai,GAOWang-li,DIMGBi—rong,LIZhen(SchoolofMachineryandAutomobileEngineering,HefeiUniversityofTechnology,Hefei230009,China)Abstra

3、ct:IntheoriginalK-meansalgorithm,clusteringcanbedonewiththeinitialeentroidgeneratedrail·domlyandthenumberofclusteringgiveninadvance,anditreducestheefectofclusteringgreatly.InthisPaper,weimprovetheoriginalK—meansalgorithm,andproposeanewalgorithmthattheinitialten-troidischosebythedensityandthenumberof

4、clusteringkisoptim~edbygeneticalgorithm.Toacertaindegree,thisalgorithmminimizetheeffectsofinitialcentroidandthenumberofclusteringonthecluste·ringaccuracyandeficiency,andenhancetheaccuracyofclustering.Weprovethevalidityofthisim。provedalgorithmbyexperimentattheendofthispaper.Keywords:K-meansalgorithm;

5、initialcentroid;clusteringk能够识别密集的和稀疏的区域,从而发现全局的分0引言布模式,以及数据属性之间的有趣的相互联系。当今,数据容量规模已经达到万亿字节的水平,目前存在大量的聚类算法,而算法主要取决于信息爆炸带来的挑战一方面是数据体系规模庞大复所研究数据的类型、聚类的目的和应用等方面。在杂;另一方面是如何从大量数据中发现隐藏的有价基于划分的聚类算法中,作为典型代表的K—means值的信息,数据挖掘的出现,为我们解决该问题提供算法主要以方法简单、执行效率高见长。下面,首先了有效的工具¨。在第一部分介绍K.means算法,然后分析了该算法聚类分析是数据挖掘技术的重要组成

6、部分,它存在的不足,在第二部分中对其进行了改进,最后通能从潜在的数据中发现新的、有意义的数据分布模过实验证明改进算法的有效性。式,已经广泛应用于图像识别、数据分析、模式识别lK·means算法及其他许多方面。聚类是在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组,1.1算法简介其重要特征是“物以类聚”,即要求在不同群组的数原始的K-means算法属于聚类分析方法中一种据之间差距越大、越明显越好,而每个群组内部的数基本的且应用最广泛的划分算法,它是一种己知聚据之间要尽量相似,差距越小越好。通过聚类,人类类别数的硬聚类算法。该算法的相似度计算是根收稿日期:2010—10—28作者

7、j酊介:屈新怀(1971~),男,安徽金寨人,合肥工业大学副教授,博士,硕士生导师,研究方向为工业工程、企业信息化工程、物流管理信息系统等;通讯作者:高万里(1985一),男,山东临沂人,合肥工业大学在读硕士研究生,研究方向为工业工程、数字化管理及其应用技术研究,(E—mail)gaowanli2008@163.com。2011年4月屈新怀,等:基于聚类数和初始值的K.means算法改进研究·43

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。