欢迎来到天天文库
浏览记录
ID:14784267
大小:23.00 KB
页数:10页
时间:2018-07-30
《基于mapreduce框架下的数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于MapReduce框架下的数据挖掘方法研究关键字:基于,mapreduce,框架,数据,数据挖掘,方法,研究基于MapReduce框架下的数据挖掘方法研究本文为Word文档,感谢你的关注! 摘要:大规模数据处理分析工作,在单个处理节点上部署时往往会遇到机器性能局限所带来的计算瓶颈。如今,技术更加先进且成本低廉的分布式计算平台为这一问题带来了改善的解决方案。文章运用MapReduce框架这一优势,研究了将数据挖掘的任务部署到分布式平台上的方案以及提出了相关研究展望。 关键词:MapReduce框架;Hadoop;数据挖掘方法;数据处理;聚类算法A TP3161009-2374(2017
2、)04-0008-03DOI:10.13535/j.cnki.11-4406/n.2017.04.005 1概述 随着时代发展,各行各业的日常运营过程中都会产生海量的数据信息,甚至这些信息正呈几何级数增长。无论是零售业、制造业还是政府机关和校园教育都可以�氖�据信息中发掘出有用的信息来帮助领导者做出决定,进一步优化自身发展的各处细节。数据挖掘就是解决这类问题的重要方法,但随之而来的便是如何快速有效地处理超大规模数据的疑问,提高计算核心的计算能力的确是重要的解决方案,而这确实不易实现。 鉴于半导体技术的不断进步,科技工艺几乎触及其极限,当年的摩尔定律已经无法支撑着如今的制造厂商有效定期提升
3、其产品的处理、计算能力。对于解决大数据信息的有效处理问题,时下流行的方案便是应用云计算,将分析处理任务交给分布式计算平台,在节约计算的时间同时,巧妙地规避了硬件既定的制约。由当年Google公司提出的MapReduce计算模型已成为了分布式计算平台中首选的数据计算框架,本文将对在该框架下部署大规模的数据挖掘进行研究,并探寻可行的解决 方案。 2研究背景 20世纪60年代,IBM公司推出的CICS成为了最早研究中间件技术的尝试,在80年代中期,贝尔实验室提出了Tuxedo,成为第一代正式中间件产品,90年代发展出很多不同用途的产品。中间件技术帮助信息能够在不同系统甚至网络环境中进行传输,帮
4、助分布式系统的计算方式取得了可喜的进步。在后期也出现了如网格技术、移动Agent技术、P2P技术等多方面的探索成果,但缺乏技术的统一标准也制约了它们广泛应用的能力。在21世纪初的几年,世界范围内对于分布式计算平台的研究方兴未艾。当科技界正探讨如何在集群计算平台中处理大数据样本时,美国科技公司Google的工程师团队率先提出了MapReduce框架的概念,并给出了实施方案,其中除了该计算框架,还包括分布式文件系统、海量数据的分布式数据库系统、分布式锁等重要设计模型。由于提出了一整套的分布式计算的解决方案,该框架的提出引起了业界广泛关注并迅速普及。 利用MapReduce框架进行数据处理的研究也
5、取得了相当多的成果:参考文献[3]提出了在该框架下运行机器学习算法程序来对文本信息进行处理的方案,将大规模的文本处理并行化提升了运算速率;参考文献[4]在对MapReduce框架原理进行深度研究后,提出了利用树构造算法与多路查询算法对内存读写进行开销评估,增强该框架的高并发情境中的读写速率;参考文献[5]提出了将成熟算法部署到MapReduce框架中求解高复杂度问题的思路。 数据挖掘作为网络时代最重要的信息处理技术,已经有了多种领域的应用。参考文献[6]中针对目前网站访问过程中用户端加载速度不理想的现状,提出对用户浏览数据进行数据挖掘处理,获得个人喜好以及访问兴趣,对网页进行预读取,可以有效
6、提升网页加载速度;参考文献[7]用过综合运用关联算法以及聚类算法可以实现一自适应的检测模型,可以有效实时检测出DoS攻击并分析查出异常的数据包的攻击类别;参考文献[8]创新地将数据挖掘技术应用于运营商客户消费行为的趋势分析中,提出了多维度事实物理分类聚类算法,有效获取多维数据中的数据类型,能提高运营商提供服务的精确度;参考文献[9]提出将数据挖掘方法应用到教育领域中的EDM新技术,通过发掘出收集的教育环境数据中的数据独有的类型信息,进而发现受教育者的学习方式以及兴趣,提升其学习效果。 由以上的研究成果可以发现,分布式系统中的MapReduce框架能够帮助多种大数据运算高效完成多类型、高强度的
7、计算任务并提供更简洁易于管理的计算流程。数据挖掘算法也发展出了很多的应用方案,能够解决很多复杂情景中的分类及趋势分析问题。本文将继续对MapReduce框架与数据挖掘算法进行合并研究,探究出将数据挖掘任务部署在MapReduce下的方案。 3MapReduce并行化计算 作为分布式计算平台中的计算框架,MapReduce主要完成了两大任务:(1)“Map”(映射),将要进行处理或计算的数据样本
此文档下载收益归作者所有