基于语义相关度的中文文本聚类方法研究

ID：33327060

大小：190.50 KB

页数：10页

时间：2019-02-24

资源描述：

《基于语义相关度的中文文本聚类方法研究》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、杜坤，刘怀亮，王帮金（西安电子科技大学经济与管理学院，陕西西安710126）基于语义相关度的中文文本聚类方法研究*本文为国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”的研究成果，项目编号：71373200The Research on Chinese Text Clustering Method Based on Semantic Relevancy摘要：[目的/意义]基于向量空间模型的文本聚类中，文本相似度计算忽略特征项间语义关联，针对此问题，提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度，结合特征项在文本中的表示权重

2、，构造文本相似度语义加权因子，并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比，改进后的语义文本相似度应用在文本聚类上，能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。关键词：维基百科语义相关度文本相似度文本聚类Abstract:[Objective/significance]Thispaperproposesanimprovedsemantictextsimilaritycomputationmethodtosolvetheproblemoffeaturetermssemanticassociationdeficiencyinte

3、xtsimilaritycomputationfortextclusteringbasedonVectorSpaceModel.[Methods/process]Firstly,thefeaturetermssemanticrelevancyiscomputedwithWikipedia.Secondly,combiningtheweightoffeatureiteminthetext,atextsimilaritysemanticweightingfactorisconstructed.Finally,K-meansclusteringmethodisusedfortextc

4、lusteringexperiment.[Results/conclusion]Bycomparingwiththetraditionalcosinesimilarity,experimentalresultsshowthattheimprovedsemantictextsimilarityusedinthetextclusteringcaneffectivelyimprovetheaccuracyofclustering.[Limitations]Wordsensedisambiguationisignoredintheprocessofthefeaturetermssema

5、nticrelevancycomputation.Keywords:Wikipediasemanticrelevancytextsimilaritytextclustering1引言随着网络通信技术的不断发展以及计算机的普及应用，网络社会产生了海量的数据信息。作为国内互联网文档信息的主要内容形式，中文文本的信息处理能够帮助用户快速、准确获得所需信息。通过聚类可以有效地管理文本数据，而文本间相似性度量是文本聚类的重要基础。文本相似度通过计算来量化两个文本间的相似程度，相似度数值越大，说明文本相似程度越高，反之文本相似程度越低，其在信息检索[1]、文本分类[2]、舆情分析[3]等领

6、域中有着广泛应用。目前大部分的文本相似性度量都是基于向量空间的文本表示模型，把文本表示成对应高维空间中的向量，利用向量之间的夹角余弦计算文本间相似度。实践证明这种模型简单高效并且得到了广泛的应用，但向量空间模型没能充分考虑不同特征项之间的语义关联，余弦相似度只能对文本间相同的特征项进行计算分析，影响了文本相似度计算的准确性。尤其是在文本聚类中，即使文本的特征项之间具有极强的相关性，但若两个文本之间没有相同的特征项，则余弦相似度仍会判定这两个文本相似度为0，不会划归一类。许多学者10为解决文本相似度计算语义缺失的问题，提出了不同的改善方法。如文献[4]在计算特征权重时引入语义信息

7、，把文本表示成语义向量空间模型，但仍使用余弦相似度度量文本相似程度；文献[5]根据知网计算词汇语义相似度，利用二部图最大权匹配算法计算文本相似度，但没有考虑特征项在文本中的表示权重；文献[6]提出一种从句子、段落到文本分阶段进行的文本相似度计算方法，计算过程较为繁琐。本文针对中文文本聚类特性，利用维基百科知识库计算特征项间的语义相关度，同时结合特征项的权重指数，在余弦相似度基础上提出一种基于语义的文本相似度计算方法，以提高文本聚类的准确度。2相关理论基础2.1向量空间模型向量空间模型[7]是

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 10



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于语义相关度的中文文本聚类方法研究

基于语义相关度的中文文本聚类方法研究

相关文章

相关标签