欢迎来到天天文库
浏览记录
ID:33778442
大小:1.11 MB
页数:71页
时间:2019-02-28
《基于语义相似度的文本聚类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京航空航天大学硕士学位论文基于语义相似度的文本聚类算法的研究姓名:孙爽申请学位级别:硕士专业:计算机应用指导教师:章勇20070101南京航空航天大学硕士学位论文摘要文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,对文本聚类的研究已成为数据挖掘中一个非常重要的课题。文本聚类的首要问题是文本数据的数学表示。目前多数文本聚类算法都是以向量空间模型(VSM)为基础的。这种文本表示方法非常简单,但却引发了高维稀疏的问题。而且,基于向量空间模型的聚类算法都没有很好地解决文本数据所特有的两个自然语言问题:
2、近义词和多义词。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。尽管人们提出通过向量空间权重调整和降维来解决上述问题,但是这些方法都有自身的缺点。向量空间权重调整法实际上并没有解决以上问题,它只能非常有限地提高文本聚类的性能。降维法虽然解决了高维稀疏问题,但是降维的代价一般都非常大。另外,现有的文本聚类算法大多没有给出聚类描述的方法。为了避免上述问题的产生,本人采用了一种新的思路,即采用语义相似度作为文本间相似度的度量。为了完善这一思想,本文对文本表示,语义相似度计算以及聚类算法作了深入讨论。提出了一种更利于语义相似度计算的概念列表文本表示法;
3、结合Quillian的联合概念距离计算的方法,提出了文本间语义相似度的计算方法;最后提出了一种基于语义相似度的文本聚类算法—TCUSS算法。TCUSS算法利用语义相似度作为文本间相似度的度量,不仅解决了多义词和近义词的问题,而且不会产生高维稀疏的问题。TCUSS算法以图为基础进行聚类分析,避免了算法对聚簇形状的限制。经实验证明,TCUSS算法比以往的文本聚类算法具有更高的分类正确率。关键字:文本聚类、语义相似度、文本表示、聚类算法、语义网络I基于语义相似度的文本聚类算法ABSTRACTTextdocumentclusteringplaysanimportantrolei
4、ntextminingandinformationretrievalsystems.Itcanimprovetheresultofqueries;provideintuitivenavigationandbrowsingmechanisms;andfindsimilartexts.Intextclusteringapplications,thetextordocumentisalwaysrepresentedusingVectorSpaceModel.Thisrepresentationisverysimple,butraisesonesevereproblem:the
5、highdimensionalityofthefeaturespaceandtheinherentdatasparsely.Inaddition,thisrepresentationalsocan'tsolvetextdata'spolysemyproblemandsynonymproblem.Alltheseproblemsinterferewithclassificationorclusteringlearningprocessesgreatlyandmaketheirperformancesbedramaticallydropped.Themaintechnolo
6、giestosolvetheproblemareweightadjustmentanddimensionalityreduction,butthesemethodshavetheirowndefects.Weightadjustmentdoesn’tsolvethoseproblemseffectively,soitimprovesthequalityofclusteringalittle.Althoughdimensionalityreductionsolveshighdimensionality,itcosthighly.Moreover,therearemanyc
7、lusteringalgorithm,buttheydon’tsettlehighdimensionalityandunderstandabledescriptionoftheclusters.Tosolvetheproblemsmentionedbefore,thistextproposedanewmethodfortextclusteringbasedonsemanticsimilarity–TCUSS(TextClusteringUsingSemanticSimilarity).Thismethodrepresentstextwit
此文档下载收益归作者所有