数据挖掘中聚类算法的研究和的应用

数据挖掘中聚类算法的研究和的应用

ID:32277165

大小:1.88 MB

页数:57页

时间:2019-02-02

数据挖掘中聚类算法的研究和的应用_第1页
数据挖掘中聚类算法的研究和的应用_第2页
数据挖掘中聚类算法的研究和的应用_第3页
数据挖掘中聚类算法的研究和的应用_第4页
数据挖掘中聚类算法的研究和的应用_第5页
资源描述:

《数据挖掘中聚类算法的研究和的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要本文首先系统的介绍了数据挖掘的基本技术,重点介绍了聚类分析的相关技术。在深入分析客户信息数据库CID(CustomerInformationDatabase,CID)数据的基础上,依据专家建议,确定本文的挖掘目标:对银行客户进行聚类分析,在客户中发现不同的客户群,从而有助于金融政策的调整和制定。其次,针对CID数据库中数据的特点以及本文的研究目标,本文采用属性选择、数据清理、属性重构、数据归约和数据变换等方法对CID数据库进行处理。数据预处理技术改进了数据的质量,提高了聚类分析过程的精度和性能。另外,本文着重对聚类算法进

2、行了研究。由于CID数据库同时含有数值型数据和符号型数据,本文选用K-Means算法及其变形作为主要方法,采用两种策略对CID数据库进行聚类分析:一种是把符号类型的数据转化为数值型数据,用能处理数值型数据的K.Means算法进行分析;另一种是直接利用可以处理混合属性的K.Prototypes算法来进行聚类分析。然后分别对这两种方法的聚类结果进行了分析,并对这两者的效率进行了对比。直接K-Means算法其时间复杂性与对象数目和聚类数目成比例,当对大型数据库进行分析时,其计算代价是相当高的。针对其在处理大数据集时的不足,本文给出

3、了基于k-d树的K.Means聚类分析算法。该方法采用k_d树作为主要的存储结构,将数据信息存放在k-d树中。实验表明,其运行效率较直接K—Means算法有了明显的提高,充分显示出采用k—d树作为存储结构的优点。最后,本文总结了已有的研究工作,并对未来工作进行了展望。关键词:数据挖掘,聚类分析,K.Means算法.K.Prototypes算法,k-d树AbstractThefundamentaltechniquesofdataminingwereintroducedfirstlyinthispaper,andthenemph

4、asisontherelatedtechnologyofclusteringanalysis.Basedonthedetailedanalysisonthecustomerinformationdatabase,CID,andcombinedwithadvicefromexpeas,themininggoalwassetup:makingclusteringanalysisoncustomerofbank,discoveringdifferentcustomergroups,whichishelpfultothemodify

5、ingandestablishingoffinancialpolicy.Secondly,towardthecharacteristicsofdatainCIDdatabaseandourresearchaims,attributeselection,datacleaning,affributereconstructing,datareductionanddatainversionetcwereappliedtoCIDdatabase.ThedataqualityWasimprovedbythedatapre-process

6、ingtechnologyandtheprecisionandperformanceduringthestageofclusteringanalysiswereenhancedalso.1Thirdly,theresearchworkofpaperfocusesonclusteringalgorithm,BecauseofthecharacteristicsthatCIDdatabasehasdataofnumericalvaluetypeandsymboltype,K-Meansanditsvariantswerechos

7、easmainmethod,andtwostrategiestoCIDdatabaseweretaken:thefirstisconvertingthosedataofsymbolvaluetypeintonumericalvalue,andwasprocessedbyK-Meanswhichcanprocessdataofnumericalvaluetype;thesecondisutilizingdirectlyK·Prototypeswhichcailprocesscombineddatatypeintocluster

8、inganalysis.Analysisondifferentclusteringresultandcomparisonoftheefficiencyoftwoalgorithmsweredonealso.ThetimecomplexityofK-Meanswasscaledtotheob

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。