基于k平均算法文本聚类系统的研究和实现

ID：32425410

大小：3.89 MB

页数：63页

时间：2019-02-04

资源描述：

《基于k平均算法文本聚类系统的研究和实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、武汉理工人学硕+学位论文摘要随着国际互联网和企业内部互联网的飞速发展，各种电子文本数据的数量急剧增加，如何快速有效的获取、管理和使用这些文本数据，已经成为信息系统学科迫切需要解决的重要问题。近年来，作为解决这些问题的基本工具之一，基于文本内容的自动文本聚类技术得到了空前的发展，引起了人们普遍的关注。文本聚类的目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能的大，而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用，文本聚类已经成为一个研究热点。本文以中文文本作为文本聚类的挖掘对象，并对中文文本聚类的全过程进行了研究，包括中文文本预处理、文本

2、聚类，对文中所述方法进行了实验分析，并设计了一个系统，实现了文本聚类的功能。本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次，分析研究了文本的预处理过程，重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分，结合退一字回溯扫描的方法发现歧义字段，对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨，本文采用向量空间模型(VSM)对文本进行表示；而文本的特征选择则采用tfidf评估函数。接着，针对中文文本的聚类，本文采用了基于k一平均算法的二次文本聚类方法：先对文本集采用k一平均

3、算法进行聚类，其中，参数k的确定是通过计算在一定范围内，k取不同值的情况下，使全体样本点的平均轮廓系数最大化的k值实现的：而初始聚类中心的选择是通过基于样本密度的方法实现的。并且，通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果，若某个簇包含的样本个数大大超过其它簇的样本个数，则对该簇再次进行聚类。最后，设计了一个文本聚类系统，测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明，该系统能够达到将同类文本聚类的目的。关键词：文本聚类，正向最大匹配，k．平均算法，轮廓系数武汉理工人学硕士学位论文AbstractWiththerapidd

4、evelopmentofintemetandintranet．asharpincreaseinthenumberofavarietyofelectronictextdata．Howtoquicklyandefficientlyaccess，manageandusethesetexts，hasbecomeanurgentandimportantissuesintheareasofinformationsystems．Inrecentyears，asoneofthebasictoolstosolvetheseproblems，automatictextcluster

5、ingtechnologybasedonthecontentofthetexthasundergoneanunprecedenteddevelopment，whichhasarousedwidespreadconcern．Thegoaloftextclusteringistodividingthetextofthedocumentcollectionintoseveralclusters，whichrequiresthesimilarityofthesameclusterswithinthecontentofthedocumentasbigaspossiblew

6、hilethesimilaritybetweenthedifferentclustersassmallaspossible．Asanimportantapplicationintextmining,textclusteringhasbecomeahotresearch．Thispaperfirstintroducedthebackgroundofthetextminingresearch，researchsignificance，andresearchrelatedtothebasictheoryofknowledge．Second，itanalyzedands

7、tudiedthetextofthepretreatmentprocess，focusedonwordsegmentationproblemsforChinesetext．ItadoptedthemaximummatchalgorithmintheWOrdsegmentation，withbacktoawordandthemethodbasedonwordfrequencytofindanddispelwordambiguity．Itdiscussedthecharacteristiesofexpressionandchoiceoffeaturesforpre．

8、text，usedVec

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 63



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于k平均算法文本聚类系统的研究和实现

基于k平均算法文本聚类系统的研究和实现

相关文章

相关标签