一种大规模高维数据快速聚类算法

一种大规模高维数据快速聚类算法

ID:37513666

大小:1.26 MB

页数:8页

时间:2019-05-24

一种大规模高维数据快速聚类算法_第1页
一种大规模高维数据快速聚类算法_第2页
一种大规模高维数据快速聚类算法_第3页
一种大规模高维数据快速聚类算法_第4页
一种大规模高维数据快速聚类算法_第5页
资源描述:

《一种大规模高维数据快速聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第35卷第7期自动化学报Vol.35,No.72009年7月ACTAAUTOMATICASINICAJuly,2009一种大规模高维数据快速聚类算法刘铭1王晓龙1刘远超1摘要提出了一种面向大规模高维数据的自组织映射聚类算法.算法通过压缩神经元的特征集合,仅选择与神经元代表的文档类相关的特征构造神经元的特征向量,从而减少了聚类时间.同时由于选取的特征能够将映射到不同神经元的文档类进行有效区分,避免了无关特征的干扰,因而提升了聚类的精度.实验结果表明该方法能够有效加快聚类的速度,提升聚类的准确度,达到比较理想的聚类

2、效果.关键词向量压缩,神经元合并,类内相似度,类间区分度中图分类号TP18AFastClusteringAlgorithmforLarge-scaleandHighDimensionalData111LIUMingWANGXiao-LongLIUYuan-ChaoAbstractAnovelself-organizing-mappingalgorithmforlarge-scaleandhighdimensionaldataisproposedinthis00paper.Bycompressingneurons

3、featuresetsandonlyselectingrelativefeaturestoconstructneuronsfeaturevectors,theclusteringtimecanbedramaticallydecreased.Simultaneously,becausetheselectedfeaturescane®ectivelydistinguishdi®erentdocumentswhicharemappedtodi®erentneurons,thealgorithmcanavoidinte

4、rferencesofirrelativefeaturesandimproveclusteringprecision.Experimentsresultsdemonstratethatthismethodologycanaccelerateclusteringspeedandimproveclusteringprecisionsigni¯cantlyandcanreachrelativelyidealclusteringe®ect.KeywordsVectorcompression,neuroncombinat

5、ion,intra-clustersimilarity,inter-clusterdistinctness聚类作为一种自动化程度较高的无监督机器学能够有效划分文档集合的神经元集合.观察发现,能习方法,近年来在信息检索、数据挖掘等领域获得够将一个文档类与其他文档类进行有效区分的特征了广泛的应用[1¡2].在众多聚类算法中,自组织映射在整个特征空间中占有很小的范围.例如,作为社聚类(Selforganizationmapping,SOM)是一种比会科学"类文档的代表特征只需类似于政治"、文较有效的方法,它是由

6、Kohonen首先提出[3],并被化"等与该类别描述的信息相关的特征,而对于像随后加以研究的一种无导师的自组织和自学习网络.经济"、体育"这样的特征,显然不能将该类别与SOM算法将高维空间的数据转化为二维空间,并且其他类别进行有效区分,而且上述这些不相关特征在二维空间中很好地保持了输入数据之间的相似性,的存在还会使某些不属于该类别的文档由于含有上其能够根据数据的分布逐步收敛到最佳的类别划分.述不相关特征而被错误地划分到社会科学"类中,与其他聚类方法相比,SOM聚类的优点在于:可以使得聚类结果较差.实现实时

7、学习,算法具有自稳定性和自学习性,无需统计发现,对于10万篇以上的超大规模文档外界给出评价函数,抗噪音能力强.集,其特征空间也在万的数量级上,过大的特征空间基于上述优点,现实应用中已经提出了许多基显然会造成过大的神经元特征向量,大大增加了聚于SOM的文本聚类算法[4¡5],这些算法以神经元类的时间.而如前所述,一个类别的代表特征在特征(Neuron)作为文档类的代表,神经元特征向量中的空间中仅占有很小的范围.实验发现,对10万篇左每个维度对应于特征空间中的每个特征,特征的权右的文档集合进行类别划分后,作为每个文

8、档类所值相当于该特征在映射到此神经元的文档类中权值描述信息的代表的特征只需大约200»300个特征,的平均分布[3].SOM文本聚类算法的实质就是发现仅占整个特征空间的1/50.可以看出,如果我们为每个文档类仅选择上述能够将此文档类与其他文档收稿日期2008-07-01收修改稿日期2008-12-03ReceivedJuly1,2008;inrevisedformDecember3,2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。