面向大数据的聚类挖掘算法研究.pdf

面向大数据的聚类挖掘算法研究.pdf

ID:50145791

大小:3.22 MB

页数:69页

时间:2020-03-06

面向大数据的聚类挖掘算法研究.pdf_第1页
面向大数据的聚类挖掘算法研究.pdf_第2页
面向大数据的聚类挖掘算法研究.pdf_第3页
面向大数据的聚类挖掘算法研究.pdf_第4页
面向大数据的聚类挖掘算法研究.pdf_第5页
资源描述:

《面向大数据的聚类挖掘算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、10293@tllm:---~Cl1012041106-7-':1~i.:8r3i~B-.-j"""ViP*~~~t!x~~it;I{f)t$)1lf~~i-t-7-f4~~.~H§in(ri]£-TPXJgiE8it~;tlltx14J5Ymtt7F:Efliw~11L~~~JI~lim±:t!Y"i~3t~5c8)!J)2015if3JiResearchofClusteringMiningAlgorithmOrientedBigDataThesisSubmittedtoNanjingUniversityof

2、PostsandTelecommunicationsfortheDegreeofMasterofEngineeringByWangYuleiSupervisor:Prof.LiLingjuanMarch2015*A~~M~~~~fu~~~ft~A~~~m~~*~~~~I~&~~I¥J6JfJt:nxJJL~;ftfiff~o,~TxtJ:l!flfjjiJ1Jo!Jt5Ft±~flli~Hn:tt!!::O:91-,t~xr:p::f'E1-a-;ttftBAei~a~!!xm~:ct:B

3、,ill~-§.~:73~~r¥JJ5tm~Et!::k*~;tt-e;ftWm~~~~~~~W~ffltl~Mfl.~ft-~I*I¥J~~~*~~mft~¥JffW~~~B~~x~~T~M~~~**~TWa.*A~&~~&W&ffi~mM~~~~.~fi~m-Wffi*~~~~ff.*A~1X~~ffi~~::k~PJ!V-{~00#rt'D~%~*$1ll%Vl;fiJ:i!~i1:;;t!¥]~6p{ttfUEt!.:Y:)(~;ft*~~-fi~~-00;ey~~~~~~B

4、~$~ff~~;PT~*m~~-~~dB•~~~¥N*~·~•**m~~o*X~~x~~~~®ti~~X~~~~-fll.~X~0~CBM~~>~a·~~~::k$~~~~~~.BAA:'J.A>lf.v.rCJ-摘要大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据中挖掘出有价值的知识是当今的研究热点。本文将面向大数据的聚类挖掘算法作为研究重点,以提高聚类挖掘算法的准确度和效率为研究目标,首先对传统聚类挖掘

5、算法进行改进以提高准确度,然后对改进的聚类算法并行化以提高效率。为了提高聚类的准确度,本文在DBSCAN算法和k-means算法的基础之上,提出了基于密度的增量k-means聚类算法(Density-basedIncrementalk-means,DBIK-means)。DBIK-means算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDDCUP99数据集的实

6、验结果表明了该算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。为了提高DBIK-means算法的效率,降低算法的时间复杂度,本文利用分布式数据库来模拟共享存储空间,在云计算Hadoop平台上进行DBIK-means算法的并行化;通过仿真实验进行验证,实验结果表明DBIK-means算法适合大规模数据集的聚类挖掘。本文最后将DBIK-means聚类算法应用于电信客户的分类中,应用结果表明该聚类算法能够较为准确地将大量的电信

7、客户自动划分到若干簇中,为电信运营商针对不同类型的客户制定不同的营销策略提供帮助。关键词:大数据,聚类挖掘,k-均值,云计算,HadoopIAbstractThegreatpotentialvalueofbigdatapromptsbigdataminingtechnologytogenerate,BigDataminingisthedataprocessingwhichminesvaluableknowledgefromthedatasourcecharacteringwithvolume,velocityan

8、dvariety.Howtoaccuratelyandquicklyminevaluableknowledgefrombigdataisahotresearchtopic.Thisthesisfocusesontheresearchofbigdataclusteringalgorithms,theresearchobjectiveistoimprovetheaccurac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。