欢迎来到天天文库
浏览记录
ID:35056943
大小:5.53 MB
页数:72页
时间:2019-03-17
《基于hadoop平台的数据挖掘分类算法分析与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、’-':/v.V/U兵t..麻./.嗎‘'、.、.、.心、品:10293;:和与.单位代码密级公与i.咬识’—-’、.■卢.'.巧.\)-.’.?<?‘...'-V.、.J.^\小'V?聲《也參I硕女《僅化戈--巧7;Tt:..M兴.耀皆义准,:'-’:一诚'-.^/T,*7:/.苦b-■,r.论文题目\:基于Hadoop平台的数据挖掘分类算法分析与研究-'产'-沿私‘:/試产—’..’卢’-r.,’V个.辛,v與■.■‘.';:'.Vr::,
2、./.户声.1013041120./学号_杳..邊^逆.南中、:.考正杰;姓名李_^肇齊'-'嗦'本V.‘八导师黄阿j软件工程‘学科专业研究方向Hadoop与海量数据挖掘王堂亟主申请学位类别:,:起;,班皆去^'2016/2^论文提交日期1/'’‘产‘’'..'、V-妓道'一-'r矿'巧.V道护''..;'.....'.;r..寒:,心《〇乾J?-'|尸、--.、'-.V:V.巧.M,.名;,?护;片;成猜TheAnalysisandResearchofDataMi
3、ningClassificationAlgorithmbasedonHadoopPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByLiZhengjieSupervisor:Prof.HuangGangFebruary2016南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成
4、果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。如作.令A研巧生签名:走、日期:南京邮电大学学位论文使用授权声明本人授权南京邮电大学可W保留并向国家有关部口或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可W将学位论文的全部或部分内容编入有关数据库进行检索;可W采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)
5、授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名;語蛛导师签名:斗间日期:>瓜摘要随着互联网等技术的发展,数据的总量以及类型将会越来越丰富。收集、分析并运用这些丰富的数据,是如今和未来数据发展的一个主流。其中,对数据进行有效准确快速的分类,是首先需要解决的任务。传统的数据挖掘分类算法往往无法快速有效地处理大规模数据。Hadoop作为一个优秀的云计算平台,能够对海量数据进行高效、快速以及可靠的处理。本文具体说明了Hadoop平台、数据挖掘及其分类的相关概念,然后深入分析了支持向量机(SVM)算法、K-近邻(KNN)算法以及朴素贝叶斯(NB)算
6、法这三种性能优秀的数据挖掘分类算法,由于它们各种各样的缺点让分类的结果达不到理想的状态,因此本文对这三种分类算法进行了分析,并通过改变计算方式和加入权重系数等方式对算法进行改进,融合各种算法的优点,摒弃它们的缺点,提出了SVM_KNN分类算法以及SVM_WNB分类算法,以解决处理上的不足。同时在这个基础上本文介绍了算法并行化的可行性和思路,将提出的两种改进算法在Hadoop云计算平台上进行并行化地处理,使得算法可以对庞大的数据进行有效地处理。最后通过实验可以发现,经过并行化处理后的算法在处理海量数据时,在处理时间和准确性上,都有了较大的提高,它们的加速比也在逐渐增大。因此可以得到结
7、论,能够使用改进后的新算法处理大数据,并且可以预见分类效果将会得到显著的提升。关键词:数据挖掘,SVM_KNN算法,SVM_WNB算法,Hadoop,并行化IAbstractWiththeInternetandothertechnologiesdevelopment,thetotalamountofdataandthetypewillbericherandricher.Tocollect,analyzeandapplytheserichdata,isthemainte
此文档下载收益归作者所有