欢迎来到天天文库
浏览记录
ID:52399788
大小:303.72 KB
页数:4页
时间:2020-03-27
《一种改进的K均值文本聚类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、130传感器与微系统(TransducerandMicrosystemTechnologies)2015年第34卷第5期DOI:10.13873/J.1000-9782o邸)05-0130-04碡一种改进的K均值文本聚类算法安计勇,高贵阁,史志强。,孙磊。(1.中国矿业大学计算机科学与技术学院。江苏徐州221116;2.73682部队,江苏徐州221116;3.中国矿业大学图文信息中心,江苏徐州221116)摘要:提出了一种改进的K均值文本聚类算法。该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最
2、远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量。实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量。关键词:簇密度;K均值;置信半径;海明距离;轮廓系数中图分类号:TP311文献标识码:A文章编号:1000-9787(2o15)05-0130-04AnimprovedK-meanstextclusteringalgorithmANJi.yong,GAOGuige,SHIZhi—qiang,SUNLei(1.SchoolofComputerScience&T
3、echnology,ChinaUniversityofMining&Technology,Xuzhou221116,China;2.The73682Army,Xuzhou221116,China;3.InformationCenterofLibrary,ChinaUniversityofMining&Technology,Xuzhou221116,China)Abstract:AnimprovedK—meanstextclusteringalgorithmisproposed.Theimprovementofthealgorithmisbasedonfo
4、llowingtwopoints:1)selectionofinitialclustercentersbasedondistancebetweentextandclusterdensity,confidenceradiusisintroducedtogetclusterdensity,orthepointsareselectedasinitialclustercentersbasedonthelongestdistancebetweentextandthemaximumofclusterdensity;2)textsimilarityiscalculat
5、edbyHammingdistancebasedonweight,clusteringqualityofdifferentalgorithmaremeasuredbasedonsilhouettetecoefficient.Experimentalresultsshowthat,comparedwiththeoriginalK—meanstextclusteringalgorithmandthealgorithminreference[1],theproposedalgorithmcanimproveclusteringquality.Keywords:
6、clusterdensity;K—means;confidenceradius;Hammingdistance;silhouetteteCoeficient0引言用轮廓系数来衡量不同聚类算法的聚类质量。实验结果表文本聚类是数据挖掘领域中的一个热点。传统聚类算明:该算法相比原始的K均值文本聚类算法和文献[1]中法分为基于划分的、密度的、分层的、网格的、模型的等几算法具有更好的聚类质量。种J。K均值聚类算法是基于划分的聚类算法,它具有算1K均值聚类算法与文本聚类法简单、收敛速度快、能有效处理大数据集等多方面的优1.1K均值聚类算法点。但是K均值聚类算法随机选
7、择初始簇中心会导致得K均值聚类算法的核心思想在于中心探索法。该算到的聚类结果中容易出现局部最优,而不是全局最优、聚类法是一个迭代算法,主要思想是从属于该簇的每个点的位结果具有不稳定性、聚类质量较差等缺点。置计算每个簇的中心位置,然后将这些点划分到距离它们针对K均值算法存在的不足,本文提出了一种改进的最近的中心,这个过程一直重复直到足够的收敛。该算法K均值文本聚类算法。该算法的改进基于以下两点:1)基相关计算公式如下:于簇密度与文本间距离选取初始簇中心,引入置信半径来聚类中心计算公式得到簇密度,即选取距离最远且簇密度最大的点为初始簇cJ.:X中心;2)基于
8、权重的海明距离来计算文本相似度,同时采i=1收稿日期:2014-09-09基金项
此文档下载收益归作者所有