基于 Hadoop的Apriori算法与实现.pdf

基于 Hadoop的Apriori算法与实现.pdf

ID:55782974

大小:1.01 MB

页数:5页

时间:2020-06-01

基于 Hadoop的Apriori算法与实现.pdf_第1页
基于 Hadoop的Apriori算法与实现.pdf_第2页
基于 Hadoop的Apriori算法与实现.pdf_第3页
基于 Hadoop的Apriori算法与实现.pdf_第4页
基于 Hadoop的Apriori算法与实现.pdf_第5页
资源描述:

《基于 Hadoop的Apriori算法与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第34卷第3期桂林理工大学学报Vol34No32014年8月JournalofGuilinUniversityofTechnologyAug2014文章编号:1674-9057(2014)03-0584-05doi:103969/j.issn1674-9057201403030基于Hadoop的Apriori算法与实现abbb孙赵旭,谢晓兰,周国清,倪金生,胡莘(桂林理工大学a信息科学与工程学院;b广西空间信息与测绘重点实验室,广西桂林

2、541004)摘要:针对传统Aprion数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点,提出了一种基于Hadoop平台应用MapReduce模型与Hbase,对Apriori进行云端的迁移和优化的算法,并与其他的改进Apriori算法进行了分析与比较。实验结果表明:新的云端算法降低了时间复杂度,使其可以更好的进行数据处理。关键词:数据挖掘;云计算;Hadoop;Hbase;MapReduce;Apriori中图分类号:TP393;TP31113文献标志码:A目前,传统的数据挖掘模型已不适用于多维其中运用最多的就是大名鼎鼎的

3、HDFS(hadoop[4]度、多噪声的海量GIS数据,由于传统的挖掘平distributedfilesystem)、MapReduce和Hbase,台自身在计算处理能力上具有局限性,同时,平这3项组成了Hadoop的技术架构(图1)。台在硬件方面遇到瓶颈,而在挖掘算法方面又遇[1]到软件性能制约,因此,研究一种新的GIS海量数据的挖掘平台和高效的数据挖掘实现模型是当前急需解决的问题。云计算和新的并行编程模[2]式MapReduce的出现,为上述问题的解决提供图1Hadoop的技术架构了基础。云计算具有快速与弹性的资源配给的特Fig1Techn

4、icalarchitectureforHadoop点,这为数据处理带来了新型低成本计算环境,可以很容易组建一个有着强大计算能力的平台,MapReduce的主要思想是从函数式编程语言[3]为海量数据分析提供强大的计算力。里借鉴来的,它包含2个重要函数:Map(映射)函数和Reduce(化简)函数。Map函数由用户自1Hadoop平台、Hbase以及Apriori算法己定义,它接受一个输入对,之后会生成一个中11Hadoop简介间的KeyValue对集,之后MapReduce库会把其中Hadoop是Apache软件基金会开发的、开源分具有相同的K

5、ey的中间值Combine(连接)在一布式基础系统架构,它的特点是可以使分布式计起,之后再传递给Reduce函数(它也是用户自定算平台的开发更加容易,使其方便并行处理大规义的)。Reduce函数会接受中间Key和其相关的模数据。它使用Java语言进行开发,可以广泛地Value集,再将其合并Value使之成为更小的Value移植到各种软硬件平台上。Hadoop的子项目众多,集。收稿日期:2013-03-16基金项目:国家高技术研究发展计划项目(2013AA12A402);广西自然科学基金项目(2013jjAA70124);广西空间信息与测绘重点实验

6、室基金项目(桂科能1103108-25;桂科能1207115-13)作者简介:孙赵旭(1987—),男,硕士,研究方向:云计算。通讯作者:谢晓兰,博士,教授,xie_xiao_lan@foxmailcom。引文格式:孙赵旭,谢晓兰,周国清,等.基于Hadoop的Apriori算法与实现[J].桂林理工大学学报,2014,34(3):584-588.第3期孙赵旭等:基于Hadoop的Apriori算法与实现58512HBase最小置信度的规则才被留下来。为了生成所有频HBase是一个分布式的存储系统,可以很容易集,使用了递归的方法。但是,Apr

7、iori算法有两在廉价PC上搭建大规模存储系统,用于存储海量大缺点,即可能产生大量的候选集、需要重复扫数据,这使得HBase适合于作为站点数据统计工描数据库。而建立在Hadoop上的MapReduce和[5]具的存储系统。类似于HDFSFile和Block的关Hbase恰好可以将其完美的解决:Apriori算法可以系,HBase提供了配套的TableInputFormat和Tab充分利用Hbase的云存储机制高速、准确的访问leOutputFormatAPI,可以方便的将HBaseTable作数据库,MapReduce模型使算法具有更好的性能为

8、HadoopMapReduce的Source和Sink。因此,在和延展性。HBase系统上运行批处理运算,最方便和实用的模2MapRed

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。