欢迎来到天天文库
浏览记录
ID:33774348
大小:1.71 MB
页数:75页
时间:2019-03-01
《基于密度和网格的聚类分析在数据挖掘中的应用 (1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号UDC密级单位代码Y8554551015l指导教师堕塑壹(中文题名和副题名1围塑(研究生姓名)职称学位授予单位——一太适篷蔓太堂二申请学位级别笪三瞠亟±学科与专业簧堡抖堂皇工程研究方向——一迭筮塞接丕筮论文提交日期学位授予El期答辩委员会主席评阅人摘要聚类(Clustering)是数据挖掘中的重要的研究课题之一。聚类分析是研究多要素事物分类问题的数量方法。其基本原理是根据样本的属性,用数学方法按照某些相似性或差异性指标,定量的确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。本课题所要研
2、究的基于网格和密度的算法不同于k-means、gmedoids等比较经典的基于“距离”的算法。它采耿一种新的思路,具有发现嵌入在高维数据子空间中聚类的能力、数据超过内存容量的扩展性、对聚类的说明是以最容易理解的DNF形式给出的,易于用户理解、对数据不作假设以符合某种典型分布及对数据的输入顺序无关。根据试验,基于网格和密度的算法可以更好的在高维数据集中自动发现包含有趣知识的子空间并在其中发现精确的聚类。这种基于密度和网格的聚类方法同其它的聚类方法⋯样,被广泛的应用于医学,通信,保险等许多领域,本课题将这种
3、聚类方法应用到通信行业中电话公司的客户分类领域,用它来分析公司客户的信息,将客户进行聚类,从而将客户分为不同的客户群,根据其特点采取措施,更好的巩倒老客,’,发展新客户,从而期待进一步提高企业利润。同时本课题还在数据预处理和算法实现上对已有的实现方式进行了一些改动,从而简化了已有算法的实现过程,提高了算法的可理解性,以期待提高算法的可用性和运行效率。此外,本文还将该聚类算法的聚类效果和聚类特点与研究已经比较成熟的缸means聚类算法进行了比较,进一步突出基于网格和密度的聚类算法在对高维大数据量数据集进行
4、聚类时在效率和可理解性上的优势。关键字:聚类分析、高维数据、网格和密度、有趣知识子空问AbstractClusteringisoneoftheimportantresearchdirectionsinDataMiningItisaquantitativemethodstudyinghowtOclassifythedatasetwithmanykeyelements.Thebasicprincipleistofindoutthecloseanddistantrelationbetweendatasampl
5、esquantitativelybymathmethodwithcertainSimilarordifferenceindexbasedontheirattributes,thenclusterthedatasampleswiththiskindofrelation.Thegridanddensitybasedclusteringalgorithmstudiedhereisdifferentfromotherclassicclusteringalgorithmsuchask-meansandk-medo
6、idswhicharedistancebasedItadoptakindofnewthinkingmethodwiththeabilityoffindingoutclustersfromdatasubspacewhichhashi曲dimensions,theexpandingabilityofanalyzingthedatasetthatexceedingthecapacityofmemory,andalsogiveoutthespecificationoftheclusterintheformofD
7、NFSOthatitcanbeeasytounderstandforusers,andnevermakeassumptionstoassnlIlethatthedataisaccordwithacertainkindofdistributemodel,andhasnothingtodowiththeinputorderofthedata.Wegotthisconclusionaccordingtothetest,thatis,gridanddensitybasedclusteringalgorithmC
8、anworkbetterinfindingoutinterestingknowledgesubspaceautomaticallyfromhighdimensionaldata,thenfindouttheaccurateclusterfromthesesubspaces.GridanddensitybasedclusteringalgorithmhasbeenappliedtoMedicalscience,Electroniccommun
此文档下载收益归作者所有