欢迎来到天天文库
浏览记录
ID:35056961
大小:5.55 MB
页数:71页
时间:2019-03-17
《基于hadoop平台的并行数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、TP游.分类号:单位代码:103610《获巧义乂學A誦论文题目:基于Hadoop平台的并行数据挖掘算法妍究作者姓名;张永芳专业名称:计算机科学与技术导师姓名;于碟副教授完成时间—;二〇六年六月论文编号:中图分类号:TP39:巧010公开学科分类号密级:安徽理王大学硕壬学位论文基于Hadoop平台的并行数据挖掘算法研究作者姓名:张永芳专业名称:计貸化科学与技术研究方向:数据較掘导师姓名:于礫副教授导师单
2、位;安徽理工大学答辩委员会主席:尹玉龙论文答辩日期16年6月4日:20安徽理工大学研究生处2016年6月6日ADissertationinComputerScienceandTechnologyResearchonParallelDataMininAlorithmBasedggonHadoopCandidate:ZhanYonfangggSuervisor:YuLipSchoolofComuterScienceandEnin
3、eerinpggAnHuiUniversityofScienceandTechnologyNo.168,ShungengRoad,Huainan,232001,P.R.CHINA独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加L乂标注和致谢的地方レ乂外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得安徽理工大学或其他教育化构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任
4、何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:許却日期:年月采日学位论文版权使用授权书本学位论文作者完全了解安徽理工大学有保留、使用学位论文的规定,巧:研究生在校攻读学位期间论文工作的知识产权单位属于安徽理工大学。学校有权保留并向国家有关部口或化拘送交论文的复印件和滋盘,允许论文被查阅和借阅。本人授权安徽理工大学可1^乂将学位论文的全部或部分内容编入有关数L、、据库进行检索,可义采用影印缩印或担描等复制手段保存汇编学位论文。(保密的学位论文在解密后适用本
5、授权书)学位论文作者签秦:夺杂為签字曰期:兴乂年月来曰《导师签寺嫂签字曰期:兴/知《月8^曰摘要摘要由于科学研究、通信技术W及IT技术等的迅猛飞速发展,庞大的数据集合由GB往TB发展,甚至将来的ZB。云计算凭借其超强的计算能力和可靠的计算能一丝生机力为数据挖掘技术的改进带来了。本文采用Hadoop分布式云计算平台,基于该平台的两大核也技术MapReduce和HDFS,,实现数据挖掘算法中分类聚类算法的并行化通过实践论证了基于该平台的分类聚类算法具有良好的加速比、
6、扩展性及分布式运算效果。主要内容如下:1.引入开源分布式计算平台Hadoop,包含它的两大核也技术MapReduce和HDFS。详细介绍了MaReduce和HDFS的运行机制及实现原理。给出数据挖掘p技术的概念,介绍数据挖捆算法中的分类聚类算法;并根据现有的知识结合数据挖掘技术的特点分析数据挖掘的发展趋势。2.基于前面的Hadoop理论知识,完成了本文所需的高可靠Hadoop平台的搭建。针对1.0.0之前的Hadoo乏安全性认证,引入Kerberos的安全策略p版本缺;针对HD
7、FS的NameNode、MapReduce的JobTracker的单节点故障问题,使用了DRBD镜像块设备存储技术。最终搭建成功高可靠安全的Hadoop环境。3Hadoo-ans.着重介绍基于p平台实现KMe聚类算法的主要思想和实现的代码-Means聚类算法具有良好;并且通过几组实验,实践说明基于云计算平台的K的扩展性能和较好的扩展性能。4.详细介绍了基于Hadoop平台的朴素贝叶斯分类算法的主要思想及实现代码;并对MapReduce化的朴素贝叶斯算法和改进前的朴素贝叶斯算法比较,分析
8、改进后的分类算法的分布式运算效果。关键词:Hadoop平台;数据挖掘;分类聚类算街脚FS--I摘要AbstractWiththeseedydevelopmentofscientificresearchcommunicationstechnolop,gyandITte浊nology,BigDatasetsfromGBtoTB,
此文档下载收益归作者所有