k-means算法的改进及其在文本数据聚类中的应用

k-means算法的改进及其在文本数据聚类中的应用

ID:35169856

大小:3.05 MB

页数:53页

时间:2019-03-20

k-means算法的改进及其在文本数据聚类中的应用_第1页
k-means算法的改进及其在文本数据聚类中的应用_第2页
k-means算法的改进及其在文本数据聚类中的应用_第3页
k-means算法的改进及其在文本数据聚类中的应用_第4页
k-means算法的改进及其在文本数据聚类中的应用_第5页
资源描述:

《k-means算法的改进及其在文本数据聚类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安科技大学硕士学位论文K-means算法的改进及其在文本数据聚类中的应用专业名称:应用数学作者姓名:王玉洁指导教师:丁正生学位论文独创性说明本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含其他人或集团已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确说明并表示了谢意。学位论文作者签名:日期:论文题目:K-means算法的改进及其在文本数据聚类中的应用专业:应用数学硕士生:王玉洁(签名)指导教

2、师:丁正生(签名)摘要随着计算机水平的迅猛发展,特别是近年来“互联网+”、云平台等应用于各行各业,各类数据海量增长,而这些海量数据的背后往往蕴含着非常丰富的信息,依靠传统的数据检索、分析方法和数据管理模式已不能满足我们获取及管理数据的需要。因此,数据挖掘技术成为解决当今社会如何快速获取有用信息的方法之一。聚类分析作为典型的非监督的描述类统计技术手段,在现今各行各业中应用广泛。K-means算法是聚类分析中基于划分的动态聚类算法,由于其简单易操作,被广泛应用,但该算法有着自身的不足,如对孤立点和初始点敏感、适合发现球类簇等。在这些不足中,初始质点和孤立点直接影响着聚类算法的运行时间及运行效果,

3、且目前尚没有统一的方法对孤立点及初始质点的选取进行说明。因此本文针对以上问题,主要做了如下改进:(1)首先根据孤立点对实验的影响程度及在统计学中标准分数和标准偏差的定义,数据结构差异较大的数据集在经过标准化处理及偏差统计后,数据集的相异度往往减少的现象,提出了利用标准分数与偏差去除孤立点的思想;其次根据K-center算法对孤立点较传统K-means算法鲁棒性强的特性,对传统的距离乘积法进行了一定的优化,再次,由于在统计学中常以标准分数及偏差来衡量整个数据集的离散程度,故提出了用最小的标准偏差代替数据集中最高密度的思想。最后用UCI数据库中Iris、Wine、Balance-Scale、Gl

4、ass数据集进行仿真模拟,验证算法的可行性。(2)在实际应用方面,由于近年来“互联网+”的影响,数据呈“爆炸式增长”,而文本又多以信息载体的形式更多的出现在人们日常生活中,故本文重点以文本数据聚类为研究对象。针对文本数据的特点,本文在已有的研究成果上,尝试将标准偏差去除强孤立点及选取初始中心点的思想应用于稀疏数据。实验表明,本文算法比传统K-means算法在性能上有一定的提高。关键词:K-means;标准分数;标准偏差;初始点;文本聚类研究类型:应用研究Subject:ImprovementofK-meansAlgorithmandItsApplicationinTheTextDataClu

5、sterSpecialty:AppliedMathematicsName:WangYujie(Signature)Director:DingZhengsheng(Signature)ABSTRACTWiththerapiddevelopmentofcomputerskills,especiallytheprojectofthe"Internet+"andthecloudplatformusedinvariousindustriesrecently,variousofdatagrowsquickly,andhugeinformationoftenbehindthesedata,thetradi

6、tionalmethodtoretrievalandanalysiscan’tsatisfyourneedsofreceivingusefulinformation,thosemanagementmodeldoesn’tsuittotoday'sdatamanagement.Inthiscase,thetechnology——DataMininghasbecomethemostusefulmethodtoquicklyobtainimportantinformationindailylife.Clusteranalysisasatypicaldescriptionstatisticsmeth

7、odoftheunsupervisedmachinelearning,attractswideattention.K-meansclusteringalgorithmisadynamicclusteringalgorithmbasedonpartition,Becauseofitssimpleandeasyoperation,thealgorithmhasbeenwidelyused,butitalsohas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。