欢迎来到天天文库
浏览记录
ID:32277165
大小:1.88 MB
页数:57页
时间:2019-02-02
《数据挖掘中聚类算法的研究和的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要本文首先系统的介绍了数据挖掘的基本技术,重点介绍了聚类分析的相关技术。在深入分析客户信息数据库CID(CustomerInformationDatabase,CID)数据的基础上,依据专家建议,确定本文的挖掘目标:对银行客户进行聚类分析,在客户中发现不同的客户群,从而有助于金融政策的调整和制定。其次,针对CID数据库中数据的特点以及本文的研究目标,本文采用属性选择、数据清理、属性重构、数据归约和数据变换等方法对CID数据库进行处理。数据预处理技术改进了数据的质量,提高了聚类分析过程的精度和性能。另外,本文着重对聚类算法进
2、行了研究。由于CID数据库同时含有数值型数据和符号型数据,本文选用K-Means算法及其变形作为主要方法,采用两种策略对CID数据库进行聚类分析:一种是把符号类型的数据转化为数值型数据,用能处理数值型数据的K.Means算法进行分析;另一种是直接利用可以处理混合属性的K.Prototypes算法来进行聚类分析。然后分别对这两种方法的聚类结果进行了分析,并对这两者的效率进行了对比。直接K-Means算法其时间复杂性与对象数目和聚类数目成比例,当对大型数据库进行分析时,其计算代价是相当高的。针对其在处理大数据集时的不足,本文给出
3、了基于k-d树的K.Means聚类分析算法。该方法采用k_d树作为主要的存储结构,将数据信息存放在k-d树中。实验表明,其运行效率较直接K—Means算法有了明显的提高,充分显示出采用k—d树作为存储结构的优点。最后,本文总结了已有的研究工作,并对未来工作进行了展望。关键词:数据挖掘,聚类分析,K.Means算法.K.Prototypes算法,k-d树AbstractThefundamentaltechniquesofdataminingwereintroducedfirstlyinthispaper,andthenemph
4、asisontherelatedtechnologyofclusteringanalysis.Basedonthedetailedanalysisonthecustomerinformationdatabase,CID,andcombinedwithadvicefromexpeas,themininggoalwassetup:makingclusteringanalysisoncustomerofbank,discoveringdifferentcustomergroups,whichishelpfultothemodify
5、ingandestablishingoffinancialpolicy.Secondly,towardthecharacteristicsofdatainCIDdatabaseandourresearchaims,attributeselection,datacleaning,affributereconstructing,datareductionanddatainversionetcwereappliedtoCIDdatabase.ThedataqualityWasimprovedbythedatapre-process
6、ingtechnologyandtheprecisionandperformanceduringthestageofclusteringanalysiswereenhancedalso.1Thirdly,theresearchworkofpaperfocusesonclusteringalgorithm,BecauseofthecharacteristicsthatCIDdatabasehasdataofnumericalvaluetypeandsymboltype,K-Meansanditsvariantswerechos
7、easmainmethod,andtwostrategiestoCIDdatabaseweretaken:thefirstisconvertingthosedataofsymbolvaluetypeintonumericalvalue,andwasprocessedbyK-Meanswhichcanprocessdataofnumericalvaluetype;thesecondisutilizingdirectlyK·Prototypeswhichcailprocesscombineddatatypeintocluster
8、inganalysis.Analysisondifferentclusteringresultandcomparisonoftheefficiencyoftwoalgorithmsweredonealso.ThetimecomplexityofK-Meanswasscaledtotheob
此文档下载收益归作者所有