基于k平均算法文本聚类系统的研究和实现

基于k平均算法文本聚类系统的研究和实现

ID:32425410

大小:3.89 MB

页数:63页

时间:2019-02-04

基于k平均算法文本聚类系统的研究和实现_第1页
基于k平均算法文本聚类系统的研究和实现_第2页
基于k平均算法文本聚类系统的研究和实现_第3页
基于k平均算法文本聚类系统的研究和实现_第4页
基于k平均算法文本聚类系统的研究和实现_第5页
资源描述:

《基于k平均算法文本聚类系统的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工人学硕+学位论文摘要随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效的获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。近年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本聚类技术得到了空前的发展,引起了人们普遍的关注。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。本文以中文文本作为文本聚类的挖掘对象,并对中文文本聚类的全过程进行了研究,包括中文文本预处理、文本

2、聚类,对文中所述方法进行了实验分析,并设计了一个系统,实现了文本聚类的功能。本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次,分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分,结合退一字回溯扫描的方法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用tfidf评估函数。接着,针对中文文本的聚类,本文采用了基于k一平均算法的二次文本聚类方法:先对文本集采用k一平均

3、算法进行聚类,其中,参数k的确定是通过计算在一定范围内,k取不同值的情况下,使全体样本点的平均轮廓系数最大化的k值实现的:而初始聚类中心的选择是通过基于样本密度的方法实现的。并且,通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果,若某个簇包含的样本个数大大超过其它簇的样本个数,则对该簇再次进行聚类。最后,设计了一个文本聚类系统,测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。关键词:文本聚类,正向最大匹配,k.平均算法,轮廓系数武汉理工人学硕士学位论文AbstractWiththerapidd

4、evelopmentofintemetandintranet.asharpincreaseinthenumberofavarietyofelectronictextdata.Howtoquicklyandefficientlyaccess,manageandusethesetexts,hasbecomeanurgentandimportantissuesintheareasofinformationsystems.Inrecentyears,asoneofthebasictoolstosolvetheseproblems,automatictextcluster

5、ingtechnologybasedonthecontentofthetexthasundergoneanunprecedenteddevelopment,whichhasarousedwidespreadconcern.Thegoaloftextclusteringistodividingthetextofthedocumentcollectionintoseveralclusters,whichrequiresthesimilarityofthesameclusterswithinthecontentofthedocumentasbigaspossiblew

6、hilethesimilaritybetweenthedifferentclustersassmallaspossible.Asanimportantapplicationintextmining,textclusteringhasbecomeahotresearch.Thispaperfirstintroducedthebackgroundofthetextminingresearch,researchsignificance,andresearchrelatedtothebasictheoryofknowledge.Second,itanalyzedands

7、tudiedthetextofthepretreatmentprocess,focusedonwordsegmentationproblemsforChinesetext.ItadoptedthemaximummatchalgorithmintheWOrdsegmentation,withbacktoawordandthemethodbasedonwordfrequencytofindanddispelwordambiguity.Itdiscussedthecharacteristiesofexpressionandchoiceoffeaturesforpre.

8、text,usedVec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。