欢迎来到天天文库
浏览记录
ID:57924628
大小:568.39 KB
页数:4页
时间:2020-04-14
《基于协同熵的K-均值算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第22卷第7期电光与控制V01.22No.72015年7月ElectronicsOptics&ControlJuly2015doi:10.3969/j.issn.1671—637X.2015.07.013基于协同熵的K-均值算法罗蜀君,侯飞,毛鑫(中国航空工业集团公司洛阳电光设备研究所,河南洛阳471000)摘要:针对传统K.均值算法容易受到野点和噪声点的影响,缺乏鲁棒性的问题,提出了一种基于协同熵的K一均值算法。该方法利用协同熵作为一种局部的相似度度量手段,并依赖最大协同熵准则进行最优聚类中心的求解。采用迭代重加权的优
2、化算法可以用来快速实现最优聚类中心的求解。对于残差较大的野点和噪声,它们在聚类中心更新的过程中将被赋予较小的权重。实验结果表明,基于协同熵的K一均值算法具有较好的鲁棒性,并获得较好的聚类效果。关键词:K一均值算法;协同熵;聚类中图分类号:0213.2文献标志码:A文章编号:1671—637X(2015)07—066一o4K-MeansAlgorithmBasedonCo—entropyLUOShu-jun,HOUFei,MAOXin(LuoyangInstituteofElectro·OpticalEquipment,A
3、VIC,Luoyang471000,China)Abstract:ConsideringthefactthatconventionalK-meansalgorithmissusceptibletotheoutliersandnoisepoints,andlackinginrobustness,anewK—meansalgorithmbasedonco-entropyisproposed.TheproposedalgorithmemploysCO—entropyasameansoflocalsimilaritymeasur
4、ement,andfollowstheCO—entropymaximizationprincipletosolvetheoptimalclustercenters.Aniterativelyreweightedoptimizationtechniqueisemployedtoquicklyfindtheoptimalclustercenters.Foroutliersandnoisydatapointswithlargerresiduals,theywillbeassignedsmallerweightsinupdati
5、ngtheclustercenters.Experimentalresultsdemonstratethattheproposedco—entropybasedK—meansalgorithmisrobust,winningabetterclusteringeflfect.Keywords:K—meansalgorithm;CO—entropy;cluster国际数据挖掘会议(ICDM)在2006年评选出了数0引言据挖掘领域的十大经典算法,K.均值算法是唯一入选聚类分析是统计数据分析中一门很重要的技术,的聚类分析算法。K
6、一均值算法以空间中的k个点为中其目的是利用静态分类的方法将相似的对象分成不同心,对最靠近它们的样本进行聚类。该算法的最大优的组别或者子集,使得在同一个子集中的对象具有相势在于简洁和快速。但是因为野点和噪声点的存在,似的属性。近年来,涌现出很多聚类分析算法,它们被聚类中心的更新很容易发生较大的偏差,进而限制了用来解决不同领域中的实际问题或者作为某些问题的K一均值算法的鲁棒性,影响了聚类效果。有效预处理手段“。如在社交网络的研究中,可以一般认为,K一均值算法中采用的全局误差度量方利用聚类方法从大量用户中识别出社区;在图像分割
7、法,即均方误差,使得算法的鲁棒性不够好。近年来,研中,聚类算法可以将数字图像分成不同的区域以进行究人员通过熵和粗糙熵的概念来提升算法的鲁棒边缘检测或者目标识别;推荐系统的作用是基于用户性。最新的研究表明协同熵提供了一种局部的度的偏好进行新项目的推荐,为了预测某一用户的偏好,量方法来描述两组变量的相似性。为了进一步提升K一通常利用聚类算法来检测出该用户所在的集群,进而均值算法的鲁棒性,本文提出使用最大化协同熵的准则利用集群中相似用户的偏好来完成预测。来寻找最优的聚类中心。对于每一个聚类,其聚类中心可以由一种迭代重加权的优化
8、算法高效地求解得到。收稿日期:2015—04.10修回日期:2015—05—05由于野点和噪声点通常具有较大的残差,在聚类中心的作者简介:罗蜀君(1979一),女,河南洛阳人,工程师,研究方向为信更新中,它们将被赋予较小的权重,进而保证了聚类中息处理与计算机技术。心更新的准确性和鲁棒性。通过在若干真实数据集上第7期罗
此文档下载收益归作者所有