资源描述:
《基于COSA算法的中文文本聚类.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第21卷第6期中文信息学报Vol.21,No.62007年11月JOURNALOFCHINESEINFORMATIONPROCESSINGNov.,2007文章编号:10030077(2007)06006506基于COSA算法的中文文本聚类121谷波,李济洪,刘开瑛(1.山西大学计算机与信息技术学院,山西太原030006;2.山西大学计算中心,山西太原030006)摘要:传统聚类算法在计算两个对象间的距离时,每个属性对距离的贡献相同。COSA(ClusteringOnSubsetsof[1]Attri
2、butes)算法认为在不同的分组中,每个属性对计算距离所起的作用可能并不相等,因为不同分组中的对象可能在不同的属性子集上聚集。文献[1]在此基础上定义了新的距离,并提出了两种COSA算法:COSA1算法是一种分割的聚类算法;COSA2算法是一种层次聚类算法。为了对比COSA距离和传统的欧氏距离在文本聚类中的表现,本文对中文文本进行了分割聚类和层次聚类的实验。实验结果显示出COSA算法较基于欧氏距离的聚类算法有更好的性能,而且对于属性数的变化,COSA算法更加稳定。关键词:计算机应用;中文信息处理;文本聚类;CO
3、SA算法;Kmeans算法中图分类号:TP391文献标识码:AChineseTextClusteringBasedonCOSAAlgorithm121GUBo,LIJihong,LIUKaiying(1.SchoolofComputer&InformationTechnology,ShanxiUniversity,Taiyuan,Shanxi030006,China;2.ComputerCenterofShanxiUniversity,Taiyuan,Shanxi030006,China)Abst
4、ract:Mosttraditionalclusteringalgorithmstreateachattributeequally.However,COSA[1](clusteringonsubsetsofattributes)algorithmbelievesthateachseparateattributeindifferentgroupsmayhavedifferentweight,andthatobjectsindifferentgroupsmayclusterindifferentsubsetsof
5、attributes.Anewdistancedefinitionispresentedinliterature[1],whichalsopresentedtwoCOSAalgorithms.COSA1isapartitioningalgorithmandCOSA2isahierarchicalclusteralgorithm.Inthispaper,COSAandCOSA1wereusedforChinesedocumentsinordertocomparetheCOSAdistanceandtheEucl
6、ideandistance.TheresultsshowthatCOSAalgorithmsachievebetterperformanceandaremorerobustwhenthenumberofattributeschanges.Keywords:computerapplication;Chineseinformationprocessing;textclustering;COSAalgorithm;Kmeans由于中文文档没有词的边界,所以一般先由分词软1引言件对中文文档进行分词,然后再把文档转换
7、成向量,最后再进行聚类。聚类是一种无监督的机器学习算法,它在给定在中文文本聚类中,有如下一些常用的聚类算[2][3]的某种相似性度量下把对象集合进行分组,使彼此法。(1)层次聚类算法根据给定的距离定义,计相近的对象分到同一个组内。文本聚类根据文档的算出每两个对象之间、对象和分组之间以及分组和某种联系或相关性对文档集合进行有效的组织、摘分组之间的距离,然后按照距离的大小构建一个聚要和导航,方便人们从文档集中发现相关的信息。类层次图。根据算法的起始情况不同,层次聚类一文本聚类方法通常先利用向量空间模型把文档转换般分
8、为两种:自顶向下层次聚类和自底向上层次聚成高维空间中的向量,然后对这些向量进行聚类。类。较为常用的是自底向上的方法。(2)分割聚类收稿日期:20070312定稿日期:20070724基金项目:国家863计划(2006AA01Z142)作者简介:谷波(1978),男,讲师,博士生,研究方向为自然语言处理;李济洪(1964),男,硕士,副教授,主要研究方向为统计学、自然语言处