基于K-means的最佳聚类数确定方法研究.pdf

基于K-means的最佳聚类数确定方法研究.pdf

ID:55734170

大小:605.03 KB

页数:5页

时间:2020-06-05

基于K-means的最佳聚类数确定方法研究.pdf_第1页
基于K-means的最佳聚类数确定方法研究.pdf_第2页
基于K-means的最佳聚类数确定方法研究.pdf_第3页
基于K-means的最佳聚类数确定方法研究.pdf_第4页
基于K-means的最佳聚类数确定方法研究.pdf_第5页
资源描述:

《基于K-means的最佳聚类数确定方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ISSN1009-3044E—mail:eduf@dnzs.net.cnComputerKnowledgeandTechnology电脑知识与技术http://www.dnzs.net.CBVo1.10,No.1,January2014Tel:+86—551—6569096365690964基于K—means的最佳聚类数确定方法研究李红岩,胡林林,王江波,周红芳(1.许继电源有限公司,河南许昌416000;2.西安理工大学计算机科学与工程学院,陕西西安710048)摘要:确定数据集的最佳聚类数是聚类研究中的一

2、个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K—means算法并结合一个不依赖于具体算法的有效性指标p(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。关键词:K—means;最佳聚类数;聚类有效性指标;聚类中图分类号:TP311文献标识码:A文章编号:1009—3044(2014)01—0110—05AMethodforDeterminingVintageNumberofClustersBasedonK—meansAlgorithmLIHo

3、ng—yan,HUlin—lin,WANGJiang—bo,ZHOUHong—fang2(1.XUJIGroupCorporationofNationalGridofChina,Xuchang416000,China;2.SchoolofComputerScienceandEngineer-ing,Xi’anUniversityofTechnology,Xi’an710048,China)Abstract:Determiningtheoptimalnumberofclustersinadatasetisadi

4、fficultproblemintherelativeresearchfieldofcluster.Toresolvethisproblemefectively,amethodforgettingtheoptimalclusternumberinamassivedatasetisproposedbasedonK—meansalgorithmandclusterqualityvalidityindexQ(c).Theoreticalanalysisandexperimentalresultshaveverifi

5、edtheefective-nessandgoodperformanceofthealgorithm.Keywords:K—means;optimalnumberofclusters;clusteringvalidityindex;clustering传统的获取最佳聚类数的算法一般是采用的是基于一种迭代的trial—and—error过程⋯,来获取数据集的最佳聚类数目。由于k-means算法适用于大型数据集的处理,且其效率比较高,特别是当数据集中的数据对象分布呈现类内团聚状时,所得到的聚类结果往往是比较好的。

6、在实际中,由于用户缺乏丰富聚类分析的经验,所以能够准确地确定数据集的聚类数k的值是一个非常困难的问题,这样就大大限制的该算法应用,而且确定的k值也往往不能保证是合适的,就需要结合一些有效性指标来确定其最佳聚类数,目前已经提出了一些检验聚类有效性的指标,主要代表有指标、指标u等。由于这些指标都是基于其他算法提出的,在k-means算法运用往往得不到比较理想的结果。鉴于此种情况,该文在传统的k-means算法基础上,给定一个聚类数目k的范围,然后再引入一个不依赖于具体算法的有效性指标,把两者结合在一起来进行最佳聚

7、类数的判定。实验结果和理论分析都表明,该文提出的算法具有良好的性能与可行性。1K—means算法1,1K—means算法介绍传统的K—means算法需要用户必须事先给定聚类个数k,并且它能自动地选取k个初始聚类中心,并按最小距离原则将数据对象指派到离其最近的类,然后不停地获取新的聚类质心并不断调整各个数据对象所属的类别,最终达到的结果是各个数据对象到其所属聚类中心的距离平方之和是最小的。K—means算法主要步骤如下:输入:数据集和该数据集的聚类个数k;输出:使得某个准则函数最小时的k个类情况。1)选择k个数

8、据对象作为初始质心;2)Repeat3)计算数据对象与各个类的质心的距离,将对象划分到距离其最近的类,形成k个类;收稿日期:2013-11—15基金项目:863重点课题(2007AA010305);陕西省自然科学基础研究计划项目(sjo8一ZT14);陕西省教育厅科学研究计划资助项目(12JK0739)作者简介:周红芳(1976一),女,陕西大荔人,博士,副教授,主要研究方向为数据仓库与数据挖掘,知

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。