基于mapreduce的数据挖掘算法研究与应用

基于mapreduce的数据挖掘算法研究与应用

ID:26865021

大小:4.05 MB

页数:180页

时间:2018-11-29

基于mapreduce的数据挖掘算法研究与应用_第1页
基于mapreduce的数据挖掘算法研究与应用_第2页
基于mapreduce的数据挖掘算法研究与应用_第3页
基于mapreduce的数据挖掘算法研究与应用_第4页
基于mapreduce的数据挖掘算法研究与应用_第5页
资源描述:

《基于mapreduce的数据挖掘算法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC学号桂林电子科技大学硕士学位论文题目基于MapReduce的数据挖掘算法研究与应用(英文)ResearchandApplicationofDataMiningAlgorithmsUsingMapReduce研究生学号:092031140研究生姓名:杜玲玲指导教师姓名、职务:杨辉华教授申请学位门类:工学硕士学科、专业:计算机应用技术提交论文日期:2012年4月论文答辩日期:2012年6月2012年6月10日独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文

2、中不包含其他人已经发表或撰写过的研究成果;也不包含为获得桂林电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明本人完全了解桂林电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属桂林电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为桂林电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可

3、以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在____年解密后适用本授权书。本人签名:日期:导师签名:日摘要摘要数据挖掘面临的数据量越来越大,如何高效、快速、低成本、可扩展地从海量数据中挖掘有价值的信息来指导生活生产是数据挖掘亟需解决的问题。串行算法对大规模数据的挖掘时间过长,对超大规模数据无法挖掘。传统的并行计算在海量数据的数据挖掘中取得一定的成效,但其对并行任务抽象度低,编程难度高,受硬件或网络带宽限制,处理能力有限,同时需要高性能计算机支持,成本较高。鉴于此,本文采用一种并行抽象度高、开发简单、易于扩展、可移植性强、

4、计算数据本地化、不需要高性能计算机支持的MapReduce编程模型,研究数据挖掘的并行算法,以提高海量数据的挖掘能力和效率。提出了基于MapReduce的并行偏最小二乘算法(PLS)和并行共被引相似度算法,在Hadoop上实现这些算法,证明其具有良好的加速比和扩展性。将并行PLS应用于中药生产过程近红外在线监测,提高了近红外光谱回归建模的速度;将并行共被引相似度算法应用于商品匹配,提高了海量商品相似度计算的效率。本文的研究内容主要包括以下三个方面:1、提出基于MapReduce的Hadoop加速比模型和三种I/O负载模型,分析了影响加速比的因素,为提高基于MapReduc

5、e的并行数据挖掘算法的加速比提供理论依据。2、在工业过程领域,针对近红外光谱在回归建模时面临数据规模巨大、建模速度慢等问题,提出基于MapReduce的并行偏最小二乘回归建模方法,包括并行数据标准化和并行主成分提取两个过程。在Hadoop云计算平台上实现了该算法,实验表明,基于MapReduce的并行PLS算法能够得到接近线性的加速比,并具有良好的扩展性。该并行PLS算法用于海量的近红外光谱等数据的建模,可有效提高建模的速度和效率。本文将其应用于中药生产过程近红外光谱在线监测,有效保证了中药产品质量稳定均一。3、在电子商务领域,针对海量的商品及销售数据,研究基于MapRe

6、duce的并行商品相似度计算方法。将共被引相似理论引入电子商务领域,来衡量同构或异构商品间的相似度;提出引用-共被引方法优化共被引理论,提高了其衡量商品相似度的准确性;给出基于MapReduce的并行共被引相似度计算方法,在Hadoop上实现该算法,对海量异构商品并行相似度分析,能得到接近线性的加速比和良好的可扩展性,提高了相似度计算的效率,达到有效提醒消费者购物、增加商品销售量的目的。关键词:MapReduce;Hadoop;数据挖掘;近红外光谱;偏最小二乘;共被引相似度;加速比模型-I-AbstractAbstractTheamountofdatathatDataMi

7、ningfacesisincreasing.Howtominevaluableinformationfrommassdatahigh-performance,rapidly,simply,lowcostandgoodscalability,andapplyittomanufacturebecomeaburningquestion.Serialalgorithmtakesalongtimetominelarge-scaledata,anddonothastheabilitytomineultra-large-scaledata.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。