数据挖掘中聚类算法的研究和的应用

ID：32277165

大小：1.88 MB

页数：57页

时间：2019-02-02

资源描述：

《数据挖掘中聚类算法的研究和的应用》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、摘要本文首先系统的介绍了数据挖掘的基本技术，重点介绍了聚类分析的相关技术。在深入分析客户信息数据库CID(CustomerInformationDatabase，CID)数据的基础上，依据专家建议，确定本文的挖掘目标：对银行客户进行聚类分析，在客户中发现不同的客户群，从而有助于金融政策的调整和制定。其次，针对CID数据库中数据的特点以及本文的研究目标，本文采用属性选择、数据清理、属性重构、数据归约和数据变换等方法对CID数据库进行处理。数据预处理技术改进了数据的质量，提高了聚类分析过程的精度和性能。另外，本文着重对聚类算法进

2、行了研究。由于CID数据库同时含有数值型数据和符号型数据，本文选用K-Means算法及其变形作为主要方法，采用两种策略对CID数据库进行聚类分析：一种是把符号类型的数据转化为数值型数据，用能处理数值型数据的K．Means算法进行分析；另一种是直接利用可以处理混合属性的K．Prototypes算法来进行聚类分析。然后分别对这两种方法的聚类结果进行了分析，并对这两者的效率进行了对比。直接K-Means算法其时间复杂性与对象数目和聚类数目成比例，当对大型数据库进行分析时，其计算代价是相当高的。针对其在处理大数据集时的不足，本文给出

3、了基于k-d树的K．Means聚类分析算法。该方法采用k_d树作为主要的存储结构，将数据信息存放在k-d树中。实验表明，其运行效率较直接K—Means算法有了明显的提高，充分显示出采用k—d树作为存储结构的优点。最后，本文总结了已有的研究工作，并对未来工作进行了展望。关键词：数据挖掘，聚类分析，K．Means算法．K．Prototypes算法，k-d树AbstractThefundamentaltechniquesofdataminingwereintroducedfirstlyinthispaper,andthenemph

4、asisontherelatedtechnologyofclusteringanalysis．Basedonthedetailedanalysisonthecustomerinformationdatabase，CID，andcombinedwithadvicefromexpeas，themininggoalwassetup：makingclusteringanalysisoncustomerofbank，discoveringdifferentcustomergroups，whichishelpfultothemodify

5、ingandestablishingoffinancialpolicy．Secondly,towardthecharacteristicsofdatainCIDdatabaseandourresearchaims，attributeselection，datacleaning，affributereconstructing，datareductionanddatainversionetcwereappliedtoCIDdatabase．ThedataqualityWasimprovedbythedatapre-process

6、ingtechnologyandtheprecisionandperformanceduringthestageofclusteringanalysiswereenhancedalso．1Thirdly,theresearchworkofpaperfocusesonclusteringalgorithm，BecauseofthecharacteristicsthatCIDdatabasehasdataofnumericalvaluetypeandsymboltype，K-Meansanditsvariantswerechos

7、easmainmethod，andtwostrategiestoCIDdatabaseweretaken：thefirstisconvertingthosedataofsymbolvaluetypeintonumericalvalue，andwasprocessedbyK-Meanswhichcanprocessdataofnumericalvaluetype；thesecondisutilizingdirectlyK·Prototypeswhichcailprocesscombineddatatypeintocluster

8、inganalysis．Analysisondifferentclusteringresultandcomparisonoftheefficiencyoftwoalgorithmsweredonealso．ThetimecomplexityofK-Meanswasscaledtotheob

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 57



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘中聚类算法的研究和的应用

数据挖掘中聚类算法的研究和的应用

相关文章

相关标签