欢迎来到天天文库
浏览记录
ID:36859878
大小:3.59 MB
页数:111页
时间:2019-05-16
《数据挖掘中聚类若干问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要数据挖掘是为了满足人们对数据中所蕴涵的信息和知识的充分理解和有效应用而发展起来的一门新兴技术。数据库、人工智能和数理统计是知识发现和数据挖掘的三个强大的技术支柱。发展自统计学的聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个重要的研究领域i至今已提出了大量的理论和方法,取得了丰硕的研究成果。尽管如此,聚类中还存在许多问题,尤其随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面l临更多新的内容和挑战。这就要求对现有聚类技术进行改进,同时不断提出新的聚类理论和方法以适应新的应用。本文对聚类有效性问题,迭代优化聚类的初始化问题,分类属
2、性数据聚类算法及高维数据聚类方法进行了较为深入的研究,主要内容如下:第一章简单介绍了数据挖掘技术和数据挖掘中的聚类分析的特点,详细论述了聚类有效性问题、迭代优化聚类的初始化、分类属性数据聚类方法以及高维数据聚类的研究现状,最后介绍了本文的主要研究工作成果及内容安排。第二章介绍了数据挖掘中的聚类分析,包括聚类分析的数据结构和数据类型,聚类准则的确定,聚类算法的分类,并详细论述了数据挖掘中用到的主要聚类算法,最后对聚类结果的评价方法进行了简要介绍。第三章主要研究聚类有效性函数。首先介绍了模糊聚类的划分系数与划分熵,研究了基于几何结构的聚类有效性函数,从聚类的“紧致度”和“分
3、离度”角度出发,提出了一种新的基于几何结构的加性聚类有效性函数;研究了改进的Hubertr统计量,将其与聚类分离度相结合,提出了一种基于HubertF统计量和分离度的聚类有效性函数。此外,研究了聚类算法的实验结果的评价,指出了现有聚类结果评价方法的不足,阐明了聚类精确度是反映聚类效率的观点,用Fowlkes&MaUows划分相似测度作为聚类精确度,来评价后续章节中聚类算法的实验结果。第四章研究了现有的迭代优化聚类的初始化方法:即采样法,距离优化法以及密度估计法,分析了它们的优缺点,提出一种新的基于距离的初始化方法,它不需要设定门限,不受数据集的顺序影响,而且对孤立点和噪
4、声有较强的抑制,适用于较大规模数据的聚类初始化;分析了对初值不敏感的k.harmonicmeans算法,提出了模糊k-harmonicmeans算法,并导出了该算法在中心迭代统一框架下的描述。第_血章研究了kmodes、k-prototypos和fuzzykmodes聚类算法,通过仿真讨论了k-prototypes算法的性能:在新的差异度函数的基础一I:提出了一种新的模糊k-modes算法;考虑到数据的不同属性对聚类过程的不同贡献,对输入数据进行属性加权处理,利用进化策略对权值进行优化,提出了基于进化策略属性加权的模糊k-modes聚类算法;研究了近似k-mbdian的
5、求解算法,月J数据的近似中值(approximatedmedian)来代替模式(modes)进行聚类,提出了分类属性数据的近似k~median聚类算法。第六章研究了适用于高维数据的相似性度量函数HsimO,这个度量函数可以较好地克服k一范数等传统的距离函数在高维空间中的缺点,并能将分类型和数值型数据的距离计算整合到一个统一的框架中去。在此基础上,针对高维数据提出了一种基于Hsim0相似性函数的模糊k-medians聚类算法。最后对论文的工作进行总结并提出以后进一步的研究方向。关键词:数据挖掘模糊聚类聚类有效性聚类初始化分类属性高维数据ABSTRACrDatamining
6、,whichanalyzesandprocessesvolumesofdata,andhelpspeopleeffectivelyobtaintheusefulandconclusiveinformationorknowledge,isbecomingoneofthemostadvancedandactiveresearchtopicsinthefieldofinformationdecision-making.Database,machinelearningandstatisticsarethreesupportsofthedevelopmentofdataminin
7、gtechnology.Derivedfiomstatistics,clusteringanalysisisoneofthemaintoolsofdatamining.Dataclusteringhasbeenstudiedextensivelyinpastdecades,andamassoftheoriesandmethodshavebeenachieved.Asyet,therearemanyproblemsinclustering,andespeciallywithdataminingtechnologyusedinvariousi
此文档下载收益归作者所有