一种改进的K均值文本聚类算法.pdf

ID：52399788

大小：303.72 KB

页数：4页

时间：2020-03-27

资源描述：

《一种改进的K均值文本聚类算法.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、130传感器与微系统(TransducerandMicrosystemTechnologies)2015年第34卷第5期DOI：10．13873／J．1000-9782o邸)05-0130-04碡一种改进的K均值文本聚类算法安计勇，高贵阁，史志强。，孙磊。(1．中国矿业大学计算机科学与技术学院。江苏徐州221116；2．73682部队，江苏徐州221116；3．中国矿业大学图文信息中心，江苏徐州221116)摘要：提出了一种改进的K均值文本聚类算法。该算法的改进基于以下两点：1)基于簇密度与文本间距离选取初始簇中心，引入置信半径来得到簇密度，即选取距离最

2、远且簇密度最大的点为初始簇中心；2)基于权重的海明距离来计算文本相似度，同时采用轮廓系数来衡量不同算法的聚类质量。实验结果表明：该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量。关键词：簇密度；K均值；置信半径；海明距离；轮廓系数中图分类号：TP311文献标识码：A文章编号：1000-9787(2o15)05-0130-04AnimprovedK-meanstextclusteringalgorithmANJi．yong，GAOGuige，SHIZhi—qiang，SUNLei(1．SchoolofComputerScience&T

3、echnology，ChinaUniversityofMining&Technology，Xuzhou221116，China；2．The73682Army，Xuzhou221116，China；3．InformationCenterofLibrary，ChinaUniversityofMining&Technology，Xuzhou221116，China)Abstract：AnimprovedK—meanstextclusteringalgorithmisproposed．Theimprovementofthealgorithmisbasedonfo

4、llowingtwopoints：1)selectionofinitialclustercentersbasedondistancebetweentextandclusterdensity，confidenceradiusisintroducedtogetclusterdensity，orthepointsareselectedasinitialclustercentersbasedonthelongestdistancebetweentextandthemaximumofclusterdensity；2)textsimilarityiscalculat

5、edbyHammingdistancebasedonweight，clusteringqualityofdifferentalgorithmaremeasuredbasedonsilhouettetecoefficient．Experimentalresultsshowthat，comparedwiththeoriginalK—meanstextclusteringalgorithmandthealgorithminreference[1]，theproposedalgorithmcanimproveclusteringquality．Keywords：

6、clusterdensity；K—means；confidenceradius；Hammingdistance；silhouetteteCoeficient0引言用轮廓系数来衡量不同聚类算法的聚类质量。实验结果表文本聚类是数据挖掘领域中的一个热点。传统聚类算明：该算法相比原始的K均值文本聚类算法和文献[1]中法分为基于划分的、密度的、分层的、网格的、模型的等几算法具有更好的聚类质量。种J。K均值聚类算法是基于划分的聚类算法，它具有算1K均值聚类算法与文本聚类法简单、收敛速度快、能有效处理大数据集等多方面的优1．1K均值聚类算法点。但是K均值聚类算法随机选

7、择初始簇中心会导致得K均值聚类算法的核心思想在于中心探索法。该算到的聚类结果中容易出现局部最优，而不是全局最优、聚类法是一个迭代算法，主要思想是从属于该簇的每个点的位结果具有不稳定性、聚类质量较差等缺点。置计算每个簇的中心位置，然后将这些点划分到距离它们针对K均值算法存在的不足，本文提出了一种改进的最近的中心，这个过程一直重复直到足够的收敛。该算法K均值文本聚类算法。该算法的改进基于以下两点：1)基相关计算公式如下：于簇密度与文本间距离选取初始簇中心，引入置信半径来聚类中心计算公式得到簇密度，即选取距离最远且簇密度最大的点为初始簇cJ．：X中心；2)基于

8、权重的海明距离来计算文本相似度，同时采i=1收稿日期：2014-09-09基金项

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种改进的K均值文本聚类算法.pdf

一种改进的K均值文本聚类算法.pdf

相关文章

相关标签