一种基于语义相似度的文本聚类算法_孙爽.pdf

一种基于语义相似度的文本聚类算法_孙爽.pdf

ID:52768008

大小:180.67 KB

页数:5页

时间:2020-03-30

一种基于语义相似度的文本聚类算法_孙爽.pdf_第1页
一种基于语义相似度的文本聚类算法_孙爽.pdf_第2页
一种基于语义相似度的文本聚类算法_孙爽.pdf_第3页
一种基于语义相似度的文本聚类算法_孙爽.pdf_第4页
一种基于语义相似度的文本聚类算法_孙爽.pdf_第5页
资源描述:

《一种基于语义相似度的文本聚类算法_孙爽.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第38卷第6期南京航空航天大学学报Vol.38No.62006年12月JournalofNanjingUniversityofAeronautics&AstronauticsDec.2006一种基于语义相似度的文本聚类算法孙爽章勇(南京航空航天大学信息科学与技术学院,南京,210016)摘要:文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出

2、了一种基于语义相似度的文本聚类算法——TCUSS(Textclusteringusingsemanticsimilarity)算法。TCUSS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCUSS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCUSS算法提高了聚类质量。关键词:文本聚类;语义相似度;文本表示;语义相似度的文本聚类算法中图分类号:TP31

3、1文献标识码:A文章编号:1005-2615(2006)06-0712-05ClusteringMethodBasedonSemanticSimilaritySunShuang,ZhangYong(CollegeofInformationScienceandTechnology,NanjingUniversityofAeronautics&Astronautics,Nanjing,210016,China)Abstract:Commondocumentclusteringalgorithmsrelyonth

4、eso-calledvector-spacemodelusingtheitemfrequencyasthefeature.However,thesemethodsdonotreallyaddressthespecialproblemsoftextclustering:highdimensionalityofthedataandunderstandabilityoftheclusterdescription.Moreover,wordsmaybesemanticallyrelated—acrucialinfo

5、rmationforclusteringdoesnotconsidered.Anewdoc-umentclusteringmethodbasedonsemanticsimilarity—textclusteringusingsemanticsimilarity(TCUSS)isproposed.TCUSSalgorithmusesdocumentsasconceptliststosolvetheproblemsmen-tionedbeforeandgivesamethodhowtodescribethecl

6、ustersbyconceptlists.TCUSSalgorithmmea-suresthedocumentsimilaritybysemanticsimilarityofconceptsinconceptlists,thenclustersthedocu-mentbasedongraphanalysis,thusavoidingtherestrictofclustersshape.ExperimentalresultsprovethatTCUSSalgorithmimprovesthequalityof

7、theclusters.Keywords:textclustering;semanticsimilarity;textrepresentation;textclusteringusingsemanticsim-ilarity(TCUSS)algorithm文档等。因此,文本聚类研究成为数据挖掘的一个引言非常重要的课题。与以往的聚类应用相比,文本聚[1]文本聚类在很多文本挖掘和信息检索系统中类主要有3个方面的挑战:发挥着重要的作用。快速和高质量的文本聚类技术(1)非常高的数据维数:这要求聚类算法能够可以将大量

8、信息组织成少数有意义的簇,这种技术处理稀疏矩阵,或者对矩阵降维。可以改善检索性能、提供导航/浏览机制、发现相似(2)数据库规模可能非常大(例如万维网):因收稿日期:2006-07-07;修订日期:2006-09-22作者简介:孙爽,女,硕士研究生,1982年11月生;章勇(联系人),男,副教授,E-mail:zy88@263.net。第6期孙爽,等:一种基于语义相似度的文本聚类算法713此,聚类算法对大型数据库也

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。