基于Hadoop的数据挖掘技术研究.pdf

基于Hadoop的数据挖掘技术研究.pdf

ID:50115967

大小:3.51 MB

页数:67页

时间:2020-03-05

基于Hadoop的数据挖掘技术研究.pdf_第1页
基于Hadoop的数据挖掘技术研究.pdf_第2页
基于Hadoop的数据挖掘技术研究.pdf_第3页
基于Hadoop的数据挖掘技术研究.pdf_第4页
基于Hadoop的数据挖掘技术研究.pdf_第5页
资源描述:

《基于Hadoop的数据挖掘技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-—^‘,,"4:;'‘’-"',作..V.’单位化码:10293密级;公开硕女《像化A't^£/气如4《巧IW?‘.-,.、:-,'.论文题目;某于Hadoop的数据巧掘技术研究1012041108学号辛巧;-瑶/:姓名伊瑶.4I..塞苏:导师..審,,f冒I?计算机软件与理论’学科专业為J'■?'v-i;’研究方某于网络的计算机软件应用技术;起如向工学硕古申请学位类别二一五年H月零

2、论文提交日期"*-非:—一--‘CV;:_’???>!'南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。致谢的地方外,论文中不包含其他人己经发表或撰写过尽我所知,除了文中特别加标注和的研究成果。,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用址的材料一与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。一。本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任研究生签名;可嗎啦日期:如JK

3、f。南京邮电大学学位论文使用授权声明本人授巧南京邮电大学可保巧并向閨家有关部口或机构送交入论文的复印件和电子文可巧;允许论文被查阅和借阅;可W将学位论文的全部或部分内容编有关数据库进行检索;yA采巧影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质一论义涉的密内容相致。论义的公布(包括刊登)授权南京邮电大学研究生院办理。研究学位论文在解密后适用本授权书。生签名:IP节藻韦?;导师签名:11^_日期:ResearchonDataMiningBasedonHadoopThesisSubmit

4、tedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYiYaoyaoSupervisor:Prof.MaoSuMarch2015摘要数据挖掘近年来获得了越来越多的广泛关注。对大型的、复杂的、信息丰富的数据集进行处理是所有机构组织、企业、政府部门的共同需求。Hadoop提出一个非常有效和实用的工具为大数据分析,能解决大数据带来的高容量、高速率和多样性的三大挑战。本文研究了基于Hadoop平台的数据挖掘算法:1.Apriori算法的主

5、要缺陷是频繁扫描数据库。为了解决这个问题,本文通过分析MapReduce的并行思想,提出了基于Hadoop的Apriori改进算法。(1)用MapReduce类似单词计数的过程来并行扫描数据库,减少了算法频繁扫描数据库的频率;(2)对map阶段具有相同项、不同顺序的项集进行按字母排序后得出同一项集,简化了事务集。通过实验仿真比较了改进的H-Apriori算法与传统Apriori算法。2.单机的逻辑回归算法在处理大数据时需要很长的运行时间,为了解决这个问题,本文通过分析逻辑回归算法关键步骤并行的可能性,提出了基于Hadoop的逻辑回归改进算法。(1

6、)在逻辑回归模型中增加惩罚因子防止过拟合问题;(2)利用Hadoop的数据分片制定分片长度和分片ID的思想来对预测的数据实现并行化处理。通过实验仿真比较了改进的MR-logreg算法与mahout中并行的逻辑回归算法。实验结果表明,基于Hadoop的改进算法H-Apriori和MR-logreg算法比传统算法具有更好的时间性能。关键字:数据挖掘,关联规则,逻辑回归,HadoopIAbstractDatamininginrecentyearsgainsmoreandmoreattention.Processinglarge,complex,rich

7、informationdatasetisacommonrequirementforallorganizations,businesses,andgovernmentdepartments.Hadoopcanhandlelargedatabringingthreechallenges:highcapacity,highspeedandhighdiversity,tomakeaveryeffectiveandusefultoolforlargedataanalysis.Thisthesisproposestodataminingalgorithmsu

8、nderHadoopplatform:1.Frequentlyscanningthedatabaseisthemainreasontha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。