k-means算法研究及在文本聚类中的应用

k-means算法研究及在文本聚类中的应用

ID:33729397

大小:5.51 MB

页数:57页

时间:2019-02-28

k-means算法研究及在文本聚类中的应用_第1页
k-means算法研究及在文本聚类中的应用_第2页
k-means算法研究及在文本聚类中的应用_第3页
k-means算法研究及在文本聚类中的应用_第4页
k-means算法研究及在文本聚类中的应用_第5页
资源描述:

《k-means算法研究及在文本聚类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明。零天声襞蔗黑甏酶掌筑稔交蓬寒丸褰警藉稽萼警遂糟麴鞣嚣薹俸爱戴褥蛰翳嚣琏熏*镶鬟蒸麴-棘耄变中精鬻鼢缀簿滚釉骧罐昀遗毒辩t论文书蓦惫叠慕德友己薤炭袭或爨鸾遴酶轿竞蔑攀,惫萃惑卺舞蒺薄善德爰》蕞鹣簸煮觐购避掌餐鼗莲攀羲艇躅链麴翳耩。鸯莪一鞫盖簿瓣瓣寒澍露酹竞蕊鬣舔蠖鳄贾蘸麓磊覆爱囊争髂≯鹱镧瞬瀵明莠豢晕罐惑.掌健造交潍雠傅需耪纂掌噍妻凄量萝每岁震享争器学位论文版权使用授权书豢举毽诗交豫塞竞受了瓣0謦奈冬季纛蓑缳餐-饕潮掌馕菇文魏撬莲x霄凝黎鬣莠鸯震褰褰荑簿

2、}.】鬟镀褥遂定逶文羲菱露箨和罐囊。免漳德炎蓑整瓣静搭壤一拳A

3、蓑鹾箨鞋争辍祷学霞逢囊姆垒攀或蕊羚爵霉赣入毒蓑羲辗霹遗精缝鬻,霄鼹蓉爝彰零·蘩蟹竣藉麓簿甏铡孚覆豫眷t篆麓攀毽藏交,镪嚣希秽黧愿沈黻谗鬟雾鬻魏僻堪珏繁黪瓤f铽凄徵蓥霉霾繁:毒毒l霎每,鬟手拳器蓥宰黧翔:o4£;年岁嚣享鑫嚣棼谴谂囊耱慧豢亟妾鸯:黧簿攀佼:氅蘩:溪谖麓缱:甥端:一㈣幽摘要、随着互联网的快速发展,大量文本信息存储过程变得更加容易,在Web上可以利用文档的数量正在迅猛地增长。在知识的海洋中,可以利用的信息总量在持续增长的时候,而用户的理解和处理信息的能力维持不变,如何从这海量的信息当中寻找出自己感兴趣的信息,如何对这

4、些未分类的文本信息进行分f-lYlU类等等,这些问题涉及一个新的研究方向——文本挖掘的研究。文本挖掘最重要的研究角度之一即为文本聚类挖掘。所谓文本聚类挖掘是一个发现文本集类别信息和包含内容的方法,将文本文档按照设定的相似度度量标准划分为指定数目的类别,使得每个类别中的样本具有较高的相似性并且给出各类别的概要描述。与对普通实验数据聚类相比,文本聚类有其自身的特点,相关的研究具有很大的挑战性。目前,针对K-Means算法研究及应用,尤其是在文本聚类挖掘层面的应用研究越来越多。本文首先系统地介绍了聚类分析和文本聚类挖掘的基本理论,然

5、后针对K.Means算法的局限性提出自己的改进方法,最后将改进的K.Means算法应用在文本聚类挖掘中。首先,文章介绍了当前国内外的聚类算法和文本聚类挖掘的研究现状。相比之下,国外的研究相对比较成熟,国内主要的研究还只处在理论研究阶段。同时,简要地介绍了数据挖掘的理论内容,包括数据挖掘的概念以及数据挖掘的步骤磕守。然后,在介绍聚类的概念和聚类算法等聚类分析相关理论知识的基础上,着重阐释了K-Means算法,并对其优缺点进行分析。针对原K-Means算法受孤立点影响和初始聚类中心随机选择等问题,提出了带孤立点分析的改进的K-Me

6、ans聚类算法。孤立点分析主要采用统计学中“z分数(标准分数)的绝对值大于2的数据作为孤立点”的思想,这个方法不但有着严格的数学理论基础而且可以避免用户设定阈值的前提条件。确定初始聚类中心的策略是每次都把相对集中的数据先划分出来,这样就可以保证每个簇划分出的数据对象有着较高的相似性。孤立点检测可以降低孤立点对聚类结果的影响,改进的K.Means算法中的初始聚类中心确定策略可以降低算法陷入局部最优的可能性并在一定程度上减少算法迭代的次数。继而使用iris数据集对改进的算法进行实验,验证了改进白qK.Means安徽大学硕士学位论文

7、K-Means算法研究及在文本聚类中的应用算法的效果和性能较原算法相比都有很大的提高。接着,描述了文本挖掘的概念和文本挖掘的主要过程,并实现了一个基于本文改进后的K.Means算法的文本聚类挖掘的应用实例。该应用实例主要包括文本预处理模块、聚类模块和性能评估模块三个模块,其中每个模块都给出详细设计思路和简要代码结构。在实例具体实现过程中,对数据预处理模块中的tf-idf值的计算提出“空间换时间”性能优化方案,对性能评估模块中的准确率计算给出相应的计算方法。随后,将设计好的应用实例应用在搜狗实验室“文本分类语料库”文本数据集上,

8、并给出文本聚类挖掘的结果。最后,对本文做出总结并提出在研究过程中未能深入研究的相关问题,给出了聚类挖掘未来的研究方向。关键词:K-Means算法;数据预处理;文本聚类IIAbstractWiththerapiddevelopmentoftheIntemet,theprocessofstoringlargeamountsoftextualinformationbecomeseasier.Simultaneously,thenumberofavailabledocumentsontheWebisgrowingrapidly.Whe

9、ntheamountofusableinformationcontinuesgrowing,theabilitiesofusers’understandingandmanagingremainunchanged.Naturally,problems,suchashowtofm

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。