欢迎来到天天文库
浏览记录
ID:50423515
大小:4.94 MB
页数:63页
时间:2020-03-05
《基于hadoop平台的模糊聚类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、.;一.I.>给捉-7I.如./护\餐气爷.心一:;.A;斗窠/'、Vt,絶:U乂,".-.;一/、,.戸‘'''.vN.、''..V\'f:-;',:V;/:1麵'I巧、'鴻-/...-哀■:\f>片47、?..竭..圍Wc气.:单4奔"1...1‘.■榮..%.卿f餐V每:、:一午:?}-:、八.1足參C為脅嗦^^縣MS扛jLt^M4.考缘/隹A^i户会A,?V■骆.?.、,.:麵'人>'朽>:喀诗Ic/..
2、:/,护台、声V多‘追'‘■X/鉛,--.髮.;..v..■.X邊:^寸^|的的段溯^批齡封I究-;.、,r,一V某'賴V,.-0可\i特W9..■.■名伟'細-..:'.1一己师S主’目,V.雄^'类I_位§化'蕃苗型制.-曰..业领域P.考I號屆V一V占?文交日期-J年四月\,.這.辟京巧一:‘v..‘
3、....’.;,i;作-备一k1:苗ResearchonfuzzyclusteringalgorithmbasedonHadoopplatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByWeiweiZhongSupervisor:AssociateProf.WeiqingChengApril2015南京
4、邮电大学学位论文原创性声明本人声明所呈交的学化论文是我个人在导师巧导下进行的研究工作及取得的研究成果。it,论文尽我所知-除了文中特别加t标注和致谢的地方外中不包含其他人己经发表或撰写过。的研究成果,也不包含为获巧南京邮电大学或其它教育机构的学位或化巧而使用过的材料一t在论文中作了明确的说明并朱示了谢意4我问工作的问志对本研究所做的任何贡献均。一。木人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任■醜:>1;研究生絕名:普拓奉步—南京邮电大学学位论文使用授权
5、声明木人授权南京邮电大学〇"处保留并向固家有关部口或机构送交论义的狂印件和电子文内容編入有关数据库化行检索;档允许论文被査阀和借阅:可将学位论文的全部或部分;可臥采用影巧、缩印或扫描等复制手段保存、汇编本学位论文。本义电子文巧的内容和纸质一(包括刊赏。论文的内容相致。论文的公布)授权南京邮电大学硏巧化院办理涉密学位论文在解密后适用本授权书。'y::H期j研究生签名;导师签名摘要现实世界中的绝大部分现象之间都没有确定的边界,具有模糊性或者随机性,所以将模糊理论的方法应用
6、于数据挖掘领域成为当前的研究热点。然而在大数据时代,面对海量的各种数据,传统的数据挖掘算法已不能满足客户的要求,所以将数据挖掘算法与拥有强大计算能力的云计算平台相结合具有很深的研究价值和广泛的应用前景。本文首先针对传统的模糊聚类算法容易受聚类初始化影响,而且在迭代时非常容易陷入局部极值的缺点,研究了一种结合遗传算法的模糊C均值(GA-FCM)新算法,实验表明该算法能够有效地克服传统算法对初始化敏感的缺点,而且能够以较高的概率收敛到全局最优解。其次,本文结合人工免疫理论中著名的克隆选择算法提出了一种
7、新的聚类算法(CSA-FCM),能够避免遗传算法中容易出现的早熟现象。同时由于克隆选择算法采用的是群体搜索策略,本质上具有并行性和搜索方向的随机性,所以在搜索中能够更准确地获得问题的全局最优解,并且收敛速度更快,因而更加适合用于大数据集的聚类分析。最后,本文介绍了云计算和hadoop平台的核心架构及运行机制,分析了将聚类分析技术与云计算平台相结合的优势,深入了解MapReduce编程模式,将本文提出的新算法(CSA-FCM)合理地并行化,使得算法可以更高效地运行在云平台,并通过基于MMTD的评价准
8、则证明本文算法能够在云计算平台上具有较高的准确性。关键词:大数据,模糊聚类,云计算,遗传算法,人工免疫IAbstractIntherealworld,thevastmajorityofthephenomenahavingnodefiniteboundaries,arefuzzyorrandom,sotheapplicationofthemethodoffuzzytheoryinthefieldofdatamininghasbecomethehotspotsinpresentrese
此文档下载收益归作者所有