基于hadoop云平台的频繁项集算法的研究与实现

基于hadoop云平台的频繁项集算法的研究与实现

ID:33086556

大小:2.35 MB

页数:64页

时间:2019-02-20

基于hadoop云平台的频繁项集算法的研究与实现_第1页
基于hadoop云平台的频繁项集算法的研究与实现_第2页
基于hadoop云平台的频繁项集算法的研究与实现_第3页
基于hadoop云平台的频繁项集算法的研究与实现_第4页
基于hadoop云平台的频繁项集算法的研究与实现_第5页
资源描述:

《基于hadoop云平台的频繁项集算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代号:学号:密级:10532S1124W178普通湖南大学工程硕士学位论文基于Hadoop云平台的频繁项集算法的研究与实现兰僮由遣厶丝名;呈强昱垣丝名殛驱整;扬垒民熬援割绪塞壶级王猩垣墙差篁焦;信息型堂皇工程堂瞳童些名趁;筮佳王捏诠室提套且.期;一2Q!垒生5月窆旦诠室筌避日期;2Q!垒生§旦3Q旦签趱委员金圭虚;奎杰勤塾攫Researchandimplementof丘equentitemsetsalgorithmbasedonHadoopcloudplatfombyMAQiaIlgB.E.(HengY抽gNo册alU11iVersity)2011Athesissubmitte

2、dinpartialsatisf-actionofmeRequirementsfortllede伊eeofMaSterofEngineeriIlgSofhvareEngineeringint量1eGradua_teSchoolofHullaIlUniversitySupeⅣisorProfessorY久NGJimninSeniorEngineerLIUXuchongMay,2014吣4呲0叭3哪4㈣0㈣6㈣2吣丫湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体己经发

3、表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:马专磊日期:二勿“}年莎月多日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在⋯一年解密后适用本授权书。2、不保密哦(请在以上相应方框内打“√”)作者签名:匆强导师签名:日期:二b,弘

4、年占月6日日期:二b,峥年占月6日基于Hadoop云平台的频繁项集算法的研究!j实现摘要随着移动互联网的迅猛发展,数据信息呈爆炸式的增长,致使传统单机、串行的数据挖掘算法已经无法满足海量数据对计算和存储资源的需求。Hadoop云计算技术作为大数据时代的技术产物,它凭借着高效的处理性能、可靠的存储能力以及良好的并行化编程接口等优势,从根本上解决了传统模式在处理大数据时存在的性能瓶颈,并极大的简化了并行程序设计的难度。因此,在当前大数据的时代背景下,结合Hadoop在大数据处理方面的优势,对传统频繁项集挖掘算法进行并行化改造研究就显得格外有意义。本文研究的主要内容如下:首先,介绍了Ha

5、doop云计算技术在处理大数据方面的优势以及传统模式的数据挖掘算法存在的性能瓶颈。针对于现有FP.gro叭h频繁项集挖掘算法在处理大数据时存在时空效率不高的问题,提出了一种并行化改进方案,该方案采用一种“分而治之”的思想对事务数据库进行水平分割,充分利用多节点并行处理的优势加速一项频繁项集和条件模式基的求解,并且通过在原有FP—tree树节点中新增一个带频繁项前缀的域空间来构建一颗新的条件模式树NFP—tree,避免了FP—growth算法需要递归构建FP.tree的不足,从而极大的提高了频繁项集的挖掘速度。其次,在传统FP—gro、vth算法并行化改进的基础之上,结合Hadoop

6、云平台技术在处理大数据方面的性能优势以及MapReduce并行编程模型提供的良好并行程序接口,提出一种基于MapReduce的并行频繁项集挖掘算法NFP.growth。该算法采用两次MapReduce的迭代求解过程:1)一项频繁项集的求解;2)条件模式基求解和频繁项集的生成。这样通过任务分解,有效均衡了算法各阶段的负载情况,从而提高算法的整体挖掘性能。最后,通过一个简单的实例验证NFP.growth算法设计的合理性。为了进一步验证NFP—gro、)l,th的优越性,将其在Hadoop平台验证与分析,实验结果表明该算法具有良好的可扩展性与高效性。关键词:频繁项集;MapReduce:

7、条件模式基;并行:FP—gro、vthII工程硕=jj学位论文AbstractWiththerapiddeVelopmentofmobileIntefnet,thedatainfbrmationshowedexplosiVegrowth.Asaresult,thetraditionalstand—alone,serialdataminingalgorithmshaVebeenunabletomeetthemassiVedatademandforeomputingand

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。