改进的k-means聚类算法及应用

改进的k-means聚类算法及应用

ID:11340555

大小:32.50 KB

页数:6页

时间:2018-07-11

改进的k-means聚类算法及应用_第1页
改进的k-means聚类算法及应用_第2页
改进的k-means聚类算法及应用_第3页
改进的k-means聚类算法及应用_第4页
改进的k-means聚类算法及应用_第5页
资源描述:

《改进的k-means聚类算法及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、改进的K-means聚类算法及应用摘要:传统的k-means算法需要事先确定初始聚类中心,聚类精确程度不高。针对以上问题,本文结合熵值法和动态规划算法来对传统的k-means算法进行改进,提出了基于熵值法及动态规划的改进k-means算法。熵值法用来修订算法的距离计算公式,以提高算法的聚类精确程度,动态规划算法用来确定算法的初始聚类中心。将改进算法应用于矿井监测传感器聚类中,结果显示较传统的k-means算法,改进算法效率有了明显提高,聚类精确程度有较大增强。关键词:k-means;动态规划;熵值法;聚类精确度;矿井监测传感器【abstract】thetradit

2、ionalk-meanshassensitivitytotheinitialclusteringcenters,anditsclusteringaccuracyislow.toagainsttheseshortcomings,animprovedk-meansalgorithmbasedonthecombinationofdynamicprogrammingalgorithmandentropymethodisproposed.theentropymethodisusedtoamendthedistancecalculatingformulatoimproveth

3、eclusteringaccuracy,anddynamicprogrammingalgorithmisusedtodefinetheinitialclustercenters.theresultofthesimulationontheclusteringintheminemonitoringsensorsshowsthattheproposedalgorithmhasbetterperformancethanthetraditionalk-meansalgorithmintermsofefficiencyandclusteringaccuracy.【keywor

4、ds】k-means;dynamicprogramming;entropy;clusteringaccuracy;minemonitoringsensors0引言k-means算法是数据挖掘技术中基于分裂法的一个经典的聚类算法,因为该算法的理论可靠、算法简单、收敛迅速而被广泛应用[1-2]。但是,k-means算法的聚类结果对初始聚类中心的依赖性导致聚类结果不稳定,并且仅依据对象间的欧式距离而忽略数据对象不同属性对对象间差异程度的影响也使得k-means算法的聚类精确度降低。在实际应用中,如果可以同时从初始聚类中心的选取和对象间欧式距离计算公式的修订两个方面对算法

5、进行改进,将对降低传统k-means算法聚类结果的波动性以及获得一个较好的聚类效果具有重要意义。文献[3]基于每个数据对象的密度参数选取处于高密度分布的点作为k-means算法的初始聚类中心,提高了聚类的准确率和稳定性。文献[4]利用贪心算法参照数据样本的分布特征将数据划分为k个集合,选取各集合中数据的平均值作为初始聚类中心。文献[5]提出了基于kruskal算法的改进kmeans算法,该算法利用最小生成树的构造原理依次向聚类中心集合中加入当前数据对象中距离最远的两个对象,如此迭代直至集合中包含k个聚类中心为止,取得了良好效果。文献[6]利用主成分分析方法对原始数

6、据进行预处理,将处理后的数据作为k-means的输入样本,解决了因样本间分类指标信息重叠导致k-means算法效率降低的问题。文献[7]基于因子分析为复杂参数变量下的数据挖掘有效地减少了冗余字段,提高了k-means分群算法的效率。文献[8]利用信息熵对数据对象的属性进行赋权,并利用权值来修改距离计算公式,在一定程度上提高了k-means聚类的精度和稳定性。在借鉴以上研究成果的基础上,现提出一种利用熵值法和动态规划算法改进的k-means聚类算法,该算法利用熵值法[9-10]确定数据属性的权值并进一步得到数据对象和其邻居间的权重系数,采用赋权的欧式距离作为相似性度

7、量的依据,在确定初始聚类中心时,利用动态规划算法求得距离累加和最大的k个数据对象作为初始聚类中心。该算法在矿井监测传感器聚类的应用结果表明该算法提高了聚类的精度和稳定性。1相关定义5结束语本文结合熵值法和动态规划提出了一种改进的k-means算法,动态规划算法用来对数据进行分析,实现确定对象集的初始聚类中心,熵值法用来计算数据对象的各个属性的权值,用改进的权值修正距离计算公式,以提高聚类的精确度。在矿井监测传感器聚类的应用结果表明,改进的算法较之于传统的k-means算法在算法的计算效率上有所提高,聚类的精确度明显增强。本文利用聚类的数据对象之间存在某种关系的特点

8、,利用动态

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。