基于语义相关度的中文文本聚类方法研究

基于语义相关度的中文文本聚类方法研究

ID:33327060

大小:190.50 KB

页数:10页

时间:2019-02-24

基于语义相关度的中文文本聚类方法研究_第1页
基于语义相关度的中文文本聚类方法研究_第2页
基于语义相关度的中文文本聚类方法研究_第3页
基于语义相关度的中文文本聚类方法研究_第4页
基于语义相关度的中文文本聚类方法研究_第5页
资源描述:

《基于语义相关度的中文文本聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、杜坤,刘怀亮,王帮金(西安电子科技大学经济与管理学院,陕西西安710126)基于语义相关度的中文文本聚类方法研究*本文为国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”的研究成果,项目编号:71373200The Research on Chinese Text Clustering Method Based on Semantic Relevancy摘要:[目的/意义]基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重

2、,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。关键词:维基百科语义相关度文本相似度文本聚类Abstract:[Objective/significance]Thispaperproposesanimprovedsemantictextsimilaritycomputationmethodtosolvetheproblemoffeaturetermssemanticassociationdeficiencyinte

3、xtsimilaritycomputationfortextclusteringbasedonVectorSpaceModel.[Methods/process]Firstly,thefeaturetermssemanticrelevancyiscomputedwithWikipedia.Secondly,combiningtheweightoffeatureiteminthetext,atextsimilaritysemanticweightingfactorisconstructed.Finally,K-meansclusteringmethodisusedfortextc

4、lusteringexperiment.[Results/conclusion]Bycomparingwiththetraditionalcosinesimilarity,experimentalresultsshowthattheimprovedsemantictextsimilarityusedinthetextclusteringcaneffectivelyimprovetheaccuracyofclustering.[Limitations]Wordsensedisambiguationisignoredintheprocessofthefeaturetermssema

5、nticrelevancycomputation.Keywords:Wikipediasemanticrelevancytextsimilaritytextclustering1引言随着网络通信技术的不断发展以及计算机的普及应用,网络社会产生了海量的数据信息。作为国内互联网文档信息的主要内容形式,中文文本的信息处理能够帮助用户快速、准确获得所需信息。通过聚类可以有效地管理文本数据,而文本间相似性度量是文本聚类的重要基础。文本相似度通过计算来量化两个文本间的相似程度,相似度数值越大,说明文本相似程度越高,反之文本相似程度越低,其在信息检索[1]、文本分类[2]、舆情分析[3]等领

6、域中有着广泛应用。目前大部分的文本相似性度量都是基于向量空间的文本表示模型,把文本表示成对应高维空间中的向量,利用向量之间的夹角余弦计算文本间相似度。实践证明这种模型简单高效并且得到了广泛的应用,但向量空间模型没能充分考虑不同特征项之间的语义关联,余弦相似度只能对文本间相同的特征项进行计算分析,影响了文本相似度计算的准确性。尤其是在文本聚类中,即使文本的特征项之间具有极强的相关性,但若两个文本之间没有相同的特征项,则余弦相似度仍会判定这两个文本相似度为0,不会划归一类。许多学者10为解决文本相似度计算语义缺失的问题,提出了不同的改善方法。如文献[4]在计算特征权重时引入语义信息

7、,把文本表示成语义向量空间模型,但仍使用余弦相似度度量文本相似程度;文献[5]根据知网计算词汇语义相似度,利用二部图最大权匹配算法计算文本相似度,但没有考虑特征项在文本中的表示权重;文献[6]提出一种从句子、段落到文本分阶段进行的文本相似度计算方法,计算过程较为繁琐。本文针对中文文本聚类特性,利用维基百科知识库计算特征项间的语义相关度,同时结合特征项的权重指数,在余弦相似度基础上提出一种基于语义的文本相似度计算方法,以提高文本聚类的准确度。2相关理论基础2.1向量空间模型向量空间模型[7]是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。