欢迎来到天天文库
浏览记录
ID:38667906
大小:405.52 KB
页数:6页
时间:2019-06-17
《Kmeans算法的初始聚类中心的优化》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据ComputerEngineeringandApplications计算机工程与应用2008,44(10)147K—means算法的初始聚类中心的优化赖玉霞,刘建平LAIYu—xia,LIUJian-ping浙江理工大学信息电子学院,杭州310018CollegeofElectronicInformation,ZhejiangSci-TechUniversity,Hangzhou310018。ChinaE-mail:lenslin2000@yahoo.corn.caLAIYu—xia.LIUJian—ping.Optimi
2、zationstudyoninitialcenterofK-meansalgorithm.ComputerEngineeringandApplications.2008.44(10):147-149.Abstract:ThetraditionalK-meansalgorithmhassensitivitytotheinitialcenters.Tosolvethisproblem,animprovedK-meansalgorithmbasedondensityispresente.Firstitcomputesthedensity
3、oftheareawherethedataobjectbelongsto;thenfindsKdataobjectsallofwhicharebelongtohighdensityareaandthemostfarawaytoeachother,usingtheseKdataobjectsastheinitialstartcenters.Theoryanalysisandexperimentalresultsdemonstratethattheimprovedalgorithmcangetbetterclustering.ande
4、liminatethesensitivitytotheinitialstartcenters.Keywords:clustering;K-meansalgorithm;density;clusteringcenter;highdensityal'ea摘要:传统的K—means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K—means算法存在的问题,提出了基于密度的改进的K—means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表
5、明,改进的算法能取得更好的聚类结果。关键词:聚类;K—means算法;密度;聚类中心;高密度区域文章编号:1002—833l(2008)10—0147-03文献标识码:A中图分类号:TP2741引言随着数据库应用的普及,人们正逐步陷入“数据丰富。知识贫乏”的尴尬境地。而近年来互联网的发展与快速普及,使得人类第一次真正体会到了数据海洋无边无际。而数据挖掘技术的出现,使得人们能够利用智能技术将这巨大数据资源转换为有用的知识与信息资源,从而能够科学地进行各种决策。数据挖掘,就是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知
6、识,能够对数据进行再分析,以期获得更加深入的了解,并具有预测功能,即可通过已有的历史数据预测未来。现有数据挖掘方法有多种.其中比较典型的有关联分析、序列分析、分类分析、聚类分析等。其中聚类就是对大量数据进行分类,使得同类内的数据相似度尽可能大,相异度尽可能小,而不同类间的数据的相似度尽可能小而相异度尽可能大。它可以发现不同数据的潜在特征,实现对数据的分类。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,在数据挖掘领域中,是一项重要的研究
7、课题。目前已经被广泛应用到许多领域,如模式识别、数据分析、图像处理、市场分析、客户关系管理等。K—means算法是聚类分析中一种基本的划分方法,因其理论上可靠、算法简单、收敛速度快、能有效地处理大数据集而被广泛使用,但传统的K—means算法对初始聚类中心敏感,从不同的初始聚类中心出发,得到的聚类结果也不一样。因此本文提出了一种寻找初始聚类中心的方法,使得初始聚类中心的分布尽可能体现数据的实际分布。2K—nleans算法的基本思想K均值算法是一种得到最广泛使用的聚类算法。K均值算法以K为参数,把n个对象分为K个簇,以使簇内具有较高
8、的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值来进行。算法首先随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。不断重复该过程,
此文档下载收益归作者所有