基于 Hadoop的Apriori算法与实现.pdf

ID：55782974

大小：1.01 MB

页数：5页

时间：2020-06-01

资源描述：

《基于 Hadoop的Apriori算法与实现.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第３４卷第３期桂林理工大学学报Ｖｏｌ３４Ｎｏ３２０１４年８月ＪｏｕｒｎａｌｏｆＧｕｉｌｉｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙＡｕｇ２０１４文章编号：１６７４－９０５７（２０１４）０３－０５８４－０５ｄｏｉ：１０３９６９／ｊ．ｉｓｓｎ１６７４－９０５７２０１４０３０３０基于Ｈａｄｏｏｐ的Ａｐｒｉｏｒｉ算法与实现ａｂｂｂ孙赵旭，谢晓兰，周国清，倪金生，胡莘（桂林理工大学ａ信息科学与工程学院；ｂ广西空间信息与测绘重点实验室，广西桂林

2、５４１００４）摘要：针对传统Ａｐｒｉｏｎ数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点，提出了一种基于Ｈａｄｏｏｐ平台应用ＭａｐＲｅｄｕｃｅ模型与Ｈｂａｓｅ，对Ａｐｒｉｏｒｉ进行云端的迁移和优化的算法，并与其他的改进Ａｐｒｉｏｒｉ算法进行了分析与比较。实验结果表明：新的云端算法降低了时间复杂度，使其可以更好的进行数据处理。关键词：数据挖掘；云计算；Ｈａｄｏｏｐ；Ｈｂａｓｅ；ＭａｐＲｅｄｕｃｅ；Ａｐｒｉｏｒｉ中图分类号：ＴＰ３９３；ＴＰ３１１１３文献标志码：Ａ目前，传统的数据挖掘模型已不适用于多维其中运用最多的就是大名鼎鼎的

3、ＨＤＦＳ（ｈａｄｏｏｐ［４］度、多噪声的海量ＧＩＳ数据，由于传统的挖掘平ｄｉｓｔｒｉｂｕｔｅｄｆｉｌｅｓｙｓｔｅｍ）、ＭａｐＲｅｄｕｃｅ和Ｈｂａｓｅ，台自身在计算处理能力上具有局限性，同时，平这３项组成了Ｈａｄｏｏｐ的技术架构（图１）。台在硬件方面遇到瓶颈，而在挖掘算法方面又遇［１］到软件性能制约，因此，研究一种新的ＧＩＳ海量数据的挖掘平台和高效的数据挖掘实现模型是当前急需解决的问题。云计算和新的并行编程模［２］式ＭａｐＲｅｄｕｃｅ的出现，为上述问题的解决提供图１Ｈａｄｏｏｐ的技术架构了基础。云计算具有快速与弹性的资源配给的特Ｆｉｇ１Ｔｅｃｈｎ

4、ｉｃａｌａｒｃｈｉｔｅｃｔｕｒｅｆｏｒＨａｄｏｏｐ点，这为数据处理带来了新型低成本计算环境，可以很容易组建一个有着强大计算能力的平台，ＭａｐＲｅｄｕｃｅ的主要思想是从函数式编程语言［３］为海量数据分析提供强大的计算力。里借鉴来的，它包含２个重要函数：Ｍａｐ（映射）函数和Ｒｅｄｕｃｅ（化简）函数。Ｍａｐ函数由用户自１Ｈａｄｏｏｐ平台、Ｈｂａｓｅ以及Ａｐｒｉｏｒｉ算法己定义，它接受一个输入对，之后会生成一个中１１Ｈａｄｏｏｐ简介间的ＫｅｙＶａｌｕｅ对集，之后ＭａｐＲｅｄｕｃｅ库会把其中Ｈａｄｏｏｐ是Ａｐａｃｈｅ软件基金会开发的、开源分具有相同的Ｋ

5、ｅｙ的中间值Ｃｏｍｂｉｎｅ（连接）在一布式基础系统架构，它的特点是可以使分布式计起，之后再传递给Ｒｅｄｕｃｅ函数（它也是用户自定算平台的开发更加容易，使其方便并行处理大规义的）。Ｒｅｄｕｃｅ函数会接受中间Ｋｅｙ和其相关的模数据。它使用Ｊａｖａ语言进行开发，可以广泛地Ｖａｌｕｅ集，再将其合并Ｖａｌｕｅ使之成为更小的Ｖａｌｕｅ移植到各种软硬件平台上。Ｈａｄｏｏｐ的子项目众多，集。收稿日期：２０１３－０３－１６基金项目：国家高技术研究发展计划项目（２０１３ＡＡ１２Ａ４０２）；广西自然科学基金项目（２０１３ｊｊＡＡ７０１２４）；广西空间信息与测绘重点实验

6、室基金项目（桂科能１１０３１０８－２５；桂科能１２０７１１５－１３）作者简介：孙赵旭（１９８７—），男，硕士，研究方向：云计算。通讯作者：谢晓兰，博士，教授，ｘｉｅ＿ｘｉａｏ＿ｌａｎ＠ｆｏｘｍａｉｌｃｏｍ。引文格式：孙赵旭，谢晓兰，周国清，等．基于Ｈａｄｏｏｐ的Ａｐｒｉｏｒｉ算法与实现［Ｊ］．桂林理工大学学报，２０１４，３４（３）：５８４－５８８．第３期孙赵旭等：基于Ｈａｄｏｏｐ的Ａｐｒｉｏｒｉ算法与实现５８５１２ＨＢａｓｅ最小置信度的规则才被留下来。为了生成所有频ＨＢａｓｅ是一个分布式的存储系统，可以很容易集，使用了递归的方法。但是，Ａｐｒ

7、ｉｏｒｉ算法有两在廉价ＰＣ上搭建大规模存储系统，用于存储海量大缺点，即可能产生大量的候选集、需要重复扫数据，这使得ＨＢａｓｅ适合于作为站点数据统计工描数据库。而建立在Ｈａｄｏｏｐ上的ＭａｐＲｅｄｕｃｅ和［５］具的存储系统。类似于ＨＤＦＳＦｉｌｅ和Ｂｌｏｃｋ的关Ｈｂａｓｅ恰好可以将其完美的解决：Ａｐｒｉｏｒｉ算法可以系，ＨＢａｓｅ提供了配套的ＴａｂｌｅＩｎｐｕｔＦｏｒｍａｔ和Ｔａｂ充分利用Ｈｂａｓｅ的云存储机制高速、准确的访问ｌｅＯｕｔｐｕｔＦｏｒｍａｔＡＰＩ，可以方便的将ＨＢａｓｅＴａｂｌｅ作数据库，ＭａｐＲｅｄｕｃｅ模型使算法具有更好的性能为

8、ＨａｄｏｏｐＭａｐＲｅｄｕｃｅ的Ｓｏｕｒｃｅ和Ｓｉｎｋ。因此，在和延展性。ＨＢａｓｅ系统上运行批处理运算，最方便和实用的模２ＭａｐＲｅｄ

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于 Hadoop的Apriori算法与实现.pdf

基于 Hadoop的Apriori算法与实现.pdf

相关文章

相关标签