资源描述:
《一种基于语义相似度的文本聚类算法_孙爽.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第38卷第6期南京航空航天大学学报Vol.38No.62006年12月JournalofNanjingUniversityofAeronautics&AstronauticsDec.2006一种基于语义相似度的文本聚类算法孙爽章勇(南京航空航天大学信息科学与技术学院,南京,210016)摘要:文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出
2、了一种基于语义相似度的文本聚类算法——TCUSS(Textclusteringusingsemanticsimilarity)算法。TCUSS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCUSS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCUSS算法提高了聚类质量。关键词:文本聚类;语义相似度;文本表示;语义相似度的文本聚类算法中图分类号:TP31
3、1文献标识码:A文章编号:1005-2615(2006)06-0712-05ClusteringMethodBasedonSemanticSimilaritySunShuang,ZhangYong(CollegeofInformationScienceandTechnology,NanjingUniversityofAeronautics&Astronautics,Nanjing,210016,China)Abstract:Commondocumentclusteringalgorithmsrelyonth
4、eso-calledvector-spacemodelusingtheitemfrequencyasthefeature.However,thesemethodsdonotreallyaddressthespecialproblemsoftextclustering:highdimensionalityofthedataandunderstandabilityoftheclusterdescription.Moreover,wordsmaybesemanticallyrelated—acrucialinfo
5、rmationforclusteringdoesnotconsidered.Anewdoc-umentclusteringmethodbasedonsemanticsimilarity—textclusteringusingsemanticsimilarity(TCUSS)isproposed.TCUSSalgorithmusesdocumentsasconceptliststosolvetheproblemsmen-tionedbeforeandgivesamethodhowtodescribethecl
6、ustersbyconceptlists.TCUSSalgorithmmea-suresthedocumentsimilaritybysemanticsimilarityofconceptsinconceptlists,thenclustersthedocu-mentbasedongraphanalysis,thusavoidingtherestrictofclustersshape.ExperimentalresultsprovethatTCUSSalgorithmimprovesthequalityof
7、theclusters.Keywords:textclustering;semanticsimilarity;textrepresentation;textclusteringusingsemanticsim-ilarity(TCUSS)algorithm文档等。因此,文本聚类研究成为数据挖掘的一个引言非常重要的课题。与以往的聚类应用相比,文本聚[1]文本聚类在很多文本挖掘和信息检索系统中类主要有3个方面的挑战:发挥着重要的作用。快速和高质量的文本聚类技术(1)非常高的数据维数:这要求聚类算法能够可以将大量
8、信息组织成少数有意义的簇,这种技术处理稀疏矩阵,或者对矩阵降维。可以改善检索性能、提供导航/浏览机制、发现相似(2)数据库规模可能非常大(例如万维网):因收稿日期:2006-07-07;修订日期:2006-09-22作者简介:孙爽,女,硕士研究生,1982年11月生;章勇(联系人),男,副教授,E-mail:zy88@263.net。第6期孙爽,等:一种基于语义相似度的文本聚类算法713此,聚类算法对大型数据库也