基于向量空间的文档聚类算法分析

基于向量空间的文档聚类算法分析

ID:21879179

大小:58.50 KB

页数:7页

时间:2018-10-25

基于向量空间的文档聚类算法分析_第1页
基于向量空间的文档聚类算法分析_第2页
基于向量空间的文档聚类算法分析_第3页
基于向量空间的文档聚类算法分析_第4页
基于向量空间的文档聚类算法分析_第5页
资源描述:

《基于向量空间的文档聚类算法分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于向量空间的文档聚类算法分析:随着科技的发展,X络信息迅速增加,而文本聚类技术则成为eans算法,对于k-means算法的缺陷,又介绍了对k-means算法有所改善的k中心点算法,并比较二者的优缺点。  关键词:文档聚类;向量空间模型;k-means算法;k中心点算法  :TP311:A:1009-3044(2011)20-4781-02  互联X在全球的迅速普及使得人们获取信息的途径有了很大的改变,越来越多的人依赖于X络来获取所需的信息。但随着inter技术的发展,X络信息也呈现了爆炸式增长,X络信息的海量与繁杂使得用户不能很快速有效的找到自己所需要的信息。尤其是对于X络新闻,虽然

2、报道立场各不相同,但是在内容上存在较大冗余,为了帮助X民在尽可能短的时间内了解特定X络新闻的内容要点,这就需要对X络媒体的相似新闻报道有效地整合在一起,方便阅读。在这里,文档聚类就显得尤为重要。  1文档聚类  通俗的讲,文档聚类就是将内容相似的文档聚集为一个类中。这样,可以将一个文档集分组为几个聚类簇,使得同类文档的相似度尽可能大,而不同类的文档间相似度尽可能小,以达到文档分类的目的。文档聚类是一种无监督的机器学习方法,不需要训练过程,没有任何关于划分的先验知识和指导,仅仅依靠文档间的相似度作为文档集合划分的准则,因此具有一定的灵活性和自动化处理能力,成为文本挖掘领域越来越多的人研究

3、的热点。  目前,聚类的方法主要有以下几种:划分法(partitioningmethods),层次法(hierarchicalmethods),基于密度的方法(density-basedmethods),基于X格的方法(grid-basedmethods),基于模型的方法(model-basedmethods)。其中最常用的文档聚类算法是基于划分的k-means算法。  2向量空间模型  向量空间模型是一种用来表示文档的方法,它的思想是将文档分解为由词条特征构成的向量。具体做法是将文档进行分词,然后计算文档中每个词条的权重,权重计算可以利用TF-IDF算法,由计算得到的权重构成一个矢量

4、空间,即形成这个文档的向量空间。例如,文档Dj可以表示成如下的向量空间:  Dj=(j)  其中,m表示文档D中分词的特征词条数;eans算法  3.1文档相似度  k-means算法是利用多个文档形成的对应的向量空间来计算各个文档的相似性,从而对多个文档进行聚类。K-means算法计算文档向量的相似度是采用基于距离的方法,即文档之间的相似性是通过计算文档向量之间的距离来表示的,空间向量的距离用如下公式表示:  距离越小,则两个文档间的相似度就越大。当然,也可以用余弦值来表示相似度。  3.2k-means算法具体分析  k-means算法进行文档聚类的基本思想是:  1)首先确定聚类

5、的个数k,即簇的数目k;  2)随机选取k个文档对象,作为初始聚类质心;  3)计算剩余的文档向量到每个聚类质心的距离,将剩余文档分配到距离它最近的一个聚类质心的划分;  4)计算每个簇的文档对象的均值向量,作为新的聚类质心;  5)重复3)、4),直到k个聚类不再发生变化,即k个簇的聚类质心不再发生变化,或者准则函数收敛为止。  通常采用的准则函数是平方误差准则,其公式如下:  其中,X∈Ci,表示X是簇Ci里对象,mi是簇Ci的质心。  下面,通过具体的例子来进一步了解k-means算法。  假设有六个文档,空间向量分别为X1=(1,0),X2=(2,4),X3=(1,1),X4=

6、(3,3),X5=(2,1),X6=(4,3),为计算简单起见,假定为二维的。聚类个数k为2。  首先,随机选取k=2个向量作为初始的聚类质心,为m1=X3,m2=X5。  然后将剩余向量分配到距离最近的聚类质心所形成的划分中:  d2(X1,m1)=(1-1)2+(0-1)2=1  d2(X1,m2)=(1-2)2+(0-1)2=2  因此,X1属于m1对应的簇中。  同理可得,X2属于m2,X4属于m2,X6属于m2。  则第一次划分后得到的两个聚簇分别为C1=(X1,X3),C2=(X2,X4,X5,X6)。  再分别计算两个簇的质心:m1=(1,0.5);m2=(2.75,2.

7、75)  计算平方误差  E12=[(1-1)2+(0-0.5)2]+[(1-1)2+(1-0.5)2]=0.5  E22=[(2-2.75)2+(4-2.75)2]+[(3-2.75)2+(3-2.75)2]+[(2-2.75)2+(1-2.75)2]+[(4-2.75)2+(3-2.75)2]=7.5  E2=0.5+7.5=8  计算各个点到新的聚类质心的距离,将它们分配到距离最近的质心所形成的划分中:  d2(X1,m1)=(1-1)2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。