欢迎来到天天文库
浏览记录
ID:35183810
大小:3.88 MB
页数:55页
时间:2019-03-21
《数据挖掘中聚类分析算法的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级硕士学位论文题目:数据挖掘中聚类分析算法的研究与改进英文并列题目:ResearchandImprovementonClusteringAnalysisAlgorithminDataMining研究生:张朋专业:软件工程研究方向:软件工程技术导师:戴月明指导小组成员:学位授予日期:2016年6月答辩委员会主席:张曦煌江南大学地址:无锡市蠡湖大道1800号二○一六年六月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含
2、本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:?細日期:心知月日_/^关于论文使用授权的说明本学位论文作者完全了解江南大学有关保留、使用学位论文的规定:江南大学有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存、一致汇编学位论文,并且本人电子文档的内容和纸质论文的内容相。保密的学位论文在解密后也遵守此规定。
3、签名:长詳巧导师签名:?曰期:年月曰I勺摘要摘要近年来互联网技术飞速发展,数据库中存储的数据越来越多。大量数据中可以发现有价值的规律和知识,于是人们就提出了数据挖掘的概念来解决这一问题。聚类为数据挖掘中的关键技术之一,用于发现在数据集中未知的类,普遍存在于各个研究领域,如机器学习、模式识别、图像处理和统计学等。数据挖掘已经广泛应用于各个领域,所面临的场景也变得错综复杂,聚类分析也面临新的挑战和内容。现在已经有许多聚类算法,这些算法都在尝试用不同的思路来实现聚类。这些算法主要存在的问题有:算法执行速度问题、类别问题、初始化问题、数据输入顺序问题、属性选择问题、
4、结果依赖输入参数的问题、噪声点的识别问题。结合以上分析,本文的主要内容如下:1、使用高斯混合模型的EM(GMM-EM)算法作为经典的基于模型的聚类算法,该算法假设整个数据集是由K个高斯分布生成的,通过EM算法求解极大似然来优化参数来拟合观测数据,简单并且易于实现。但算法在聚类过程中无法识别噪声点,最终的收敛效果也依赖于初始值的选择,本文提出一种基于密度检测的GMM-EM(DDGMM-EM)算法通过基于密度的方法来检测噪声点,利用基于密度和距离的方法进行初始值选择,改善了EM算法收敛效果。实验结果表明新算法可有效识别噪声点,降低初始值选择对收敛效果的影响,明显提高了聚类
5、准确率和稳定性。2、粗糙集均值(RoughC-means,RCM)算法把每个簇看作是一个粗糙集,每个对象只属于一个簇的下近似集或者多个簇的上近似集,实现了对数据集的软聚类,解决了簇的重叠问题。但是RCM算法在聚类过程中对每个属性均同等看待,而在现实中往往只有几个关键属性对聚类起作用。为了区分不同属性对聚类的不同影响,本文在RCM算法的基础上加入属性权重矩阵,提出了一种属性加权的WRCM(WeightedRCM)算法,在迭代过程中可以对权重进行动态调整。实验表明该算法不仅可以提高聚类的精确度,还能区分不同属性对聚类的重要性,实现关键属性的选择。3、最后,论文将聚类算法应
6、用于文本聚类,借助第三方工具对文本进行分词、提取关键词和去停用词,然后通过TF-IDF计算关键词对应的权重,生成文本特征向量,使用向量夹角的余弦值作为相似度,结合DDGMM-EM算法进行聚类,实现了一个简单的文本聚类工具,并通过对比表明了本文算法的有效性。关键词:数据挖掘;聚类;EM算法;K-means算法;粗糙集IAbstractAbstractInrecentyears,withtherapiddevelopmentofInternettechnology,alargeamountofdatahasbeencollected,whichenablesresearc
7、herstoproposelotsofdataminingmethodssincethedataisvaluable.Asoneofthekeytechnologiesindatamining,clusteringhasbeenappliedfordiscoveringthedisciplinarianofunknowndataset,andhasbeenutilizedinvariousresearchareas,suchasmachinelearning,patternrecognition,imageprocessingandstatistic
此文档下载收益归作者所有