基于hadoop平台的数据挖掘分类算法分析与研究

基于hadoop平台的数据挖掘分类算法分析与研究

ID:35056943

大小:5.53 MB

页数:72页

时间:2019-03-17

基于hadoop平台的数据挖掘分类算法分析与研究_第1页
基于hadoop平台的数据挖掘分类算法分析与研究_第2页
基于hadoop平台的数据挖掘分类算法分析与研究_第3页
基于hadoop平台的数据挖掘分类算法分析与研究_第4页
基于hadoop平台的数据挖掘分类算法分析与研究_第5页
资源描述:

《基于hadoop平台的数据挖掘分类算法分析与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、’-':/v.V/U兵t..麻./.嗎‘'、.、.、.心、品:10293;:和与.单位代码密级公与i.咬识’—-’、.■卢.'.巧.\)-.’.?<?‘...'-V.、.J.^\小'V?聲《也參I硕女《僅化戈--巧7;Tt:..M兴.耀皆义准,:'-’:一诚'-.^/T,*7:/.苦b-■,r.论文题目\:基于Hadoop平台的数据挖掘分类算法分析与研究-'产'-沿私‘:/試产—’..’卢’-r.,’V个.辛,v與■.■‘.';:'.Vr::,

2、./.户声.1013041120./学号_杳..邊^逆.南中、:.考正杰;姓名李_^肇齊'-'嗦'本V.‘八导师黄阿j软件工程‘学科专业研究方向Hadoop与海量数据挖掘王堂亟主申请学位类别:,:起;,班皆去^'2016/2^论文提交日期1/'’‘产‘’'..'、V-妓道'一-'r矿'巧.V道护''..;'.....'.;r..寒:,心《〇乾J?-'|尸、--.、'-.V:V.巧.M,.名;,?护;片;成猜TheAnalysisandResearchofDataMi

3、ningClassificationAlgorithmbasedonHadoopPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByLiZhengjieSupervisor:Prof.HuangGangFebruary2016南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成

4、果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。如作.令A研巧生签名:走、日期:南京邮电大学学位论文使用授权声明本人授权南京邮电大学可W保留并向国家有关部口或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可W将学位论文的全部或部分内容编入有关数据库进行检索;可W采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)

5、授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名;語蛛导师签名:斗间日期:>瓜摘要随着互联网等技术的发展,数据的总量以及类型将会越来越丰富。收集、分析并运用这些丰富的数据,是如今和未来数据发展的一个主流。其中,对数据进行有效准确快速的分类,是首先需要解决的任务。传统的数据挖掘分类算法往往无法快速有效地处理大规模数据。Hadoop作为一个优秀的云计算平台,能够对海量数据进行高效、快速以及可靠的处理。本文具体说明了Hadoop平台、数据挖掘及其分类的相关概念,然后深入分析了支持向量机(SVM)算法、K-近邻(KNN)算法以及朴素贝叶斯(NB)算

6、法这三种性能优秀的数据挖掘分类算法,由于它们各种各样的缺点让分类的结果达不到理想的状态,因此本文对这三种分类算法进行了分析,并通过改变计算方式和加入权重系数等方式对算法进行改进,融合各种算法的优点,摒弃它们的缺点,提出了SVM_KNN分类算法以及SVM_WNB分类算法,以解决处理上的不足。同时在这个基础上本文介绍了算法并行化的可行性和思路,将提出的两种改进算法在Hadoop云计算平台上进行并行化地处理,使得算法可以对庞大的数据进行有效地处理。最后通过实验可以发现,经过并行化处理后的算法在处理海量数据时,在处理时间和准确性上,都有了较大的提高,它们的加速比也在逐渐增大。因此可以得到结

7、论,能够使用改进后的新算法处理大数据,并且可以预见分类效果将会得到显著的提升。关键词:数据挖掘,SVM_KNN算法,SVM_WNB算法,Hadoop,并行化IAbstractWiththeInternetandothertechnologiesdevelopment,thetotalamountofdataandthetypewillbericherandricher.Tocollect,analyzeandapplytheserichdata,isthemainte

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。