基于MapReduce的关联规则挖掘.pdf

基于MapReduce的关联规则挖掘.pdf

ID:57741588

大小:857.40 KB

页数:2页

时间:2020-03-26

基于MapReduce的关联规则挖掘.pdf_第1页
基于MapReduce的关联规则挖掘.pdf_第2页
资源描述:

《基于MapReduce的关联规则挖掘.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用技术与研究学术探讨2014年第8期基于MapReduce的关联规则挖掘陈凤娟(辽宁对外经贸学院,辽宁大连116052)[摘要]关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁项集挖掘得到关联规则。基于云计算的Ma-pReduce模型的数据挖掘算法可以提高挖掘的效果及性能。[关键词]关联规则;频繁项集;MapReduce;数据挖掘但是频繁闭项集比频繁项集的元素少很多,因此挖掘频繁闭1.引言项集能够满足用户的需求并且对减少了算法的开销,提升了计算机和网络技术飞速发展,各个行业中存储了海量的频

2、繁项集挖掘的效率,同时还减少了冗余信息的输出。数据,并且这些数据的数量还在增长。这些海量数据蕴含着3.MapReduce模型丰富的知识,如何找出数据中蕴含的知识,为各种决策提供MapReduce是一个将大型分布式计算转换成为行串行帮助成为了一个迫切需要解决的问题。数据挖掘技术运用化分布式计算的编程模型,它用Key/Value,即键/值对的形式了机器学习和模式识别等多个领域的知识,为解决这个实际来表示分布式计算,完成分布式操作。通过计算机集群,在问题提供了有力的工具。关联规则是数据挖掘的一个主要Ha

3、doop/MapReduce框架中,把用户定义的MapReduce任务技术,它能从给定的数据集中,通过关联规则挖掘算法,找出分布到集群中的各个节点上执行。各个属性之间的关联关系,以及多个属性域之间的依赖关能用MapReduce来处理的数据集必须是能分解成多个系,这种依赖关系对决策和预测有作用。MapReduce是由谷歌研究员提出的一种分布式编程框小数据集的数据集合,并且每个小数据集都可以完全并行地架,是一个用于处理海量数据的并行编程模型,可以运行在进行处理,否则,这个数据集合是不能用MapRedu

4、ce来处理异构环境下,编程简单,不必关心底层实现细节。对现有的的。一个MapReduce分布式计算由两个过程组成,一个是关联规则挖掘算法进行改进,使这些算法能在MapReduce模Map过程,一个是Reduce过程,其中,Map过程也叫映射过型中运行,利用并行技术提高算法的性能。程,而Reduce过程也叫规约过程。MapReduce框架将输入的数据分成多个能并行运算的数据片段,然后将每一个数据片2.关联规则的基本概念段分配给一个Map任务,每一个Map任务执行相同的操作,关联规则的挖掘是分两步来实

5、现的,首先按照用户给定即对分配给它的数据片段的key/value对进行计算,生成一个的最低阈值,找出数据集中的所有频繁项目集,然后从频繁中间结果,这个过程称为Map过程。Map过程把计算得到的项目集中构造规则,要求构造的规则的可信度大于等于用户所有具有相同key值的value,经过计算后传递给Reduce函设定的最低值。支持度是对关联规则代表的重要性进行度数,而Reduce任务会将从Map得到的二元组key/value集合量的指标,它体现了关联规则的频度。如果某个项集的支持的片段作为输入,调用用户

6、定义的Reduce函数,将value值合度的值太小,则表明相应的规则很可能只是偶然发生的。并,得到value的集合,这个过程称为Reduce过程。设U={U1,U2,…,Un}为n个不同字符的集合,其中的字无论是Map过程还是Reduce过程,它们的每个任务的符称为项或商品。任意一个集合X⊆U称为一个项集,若执行都支持容错功能,当任一个或多个节点在计算过程中出

7、X

8、=k,则称X为k项集。事务(或交易)T是项的集合,且任意现错误时,都会自动将出错的任务重新分配到其他节点上,的T⊆U,对应每一个事务有

9、唯一的标识,记作TID。设A=让其他节点完成计算。并行运行多个Map和Reduce任务,{T1,T2,…,Tn},称A为U上的交易集或者数据集,简称交易为系统提供了很好的负载均衡同时也降低了运行中失败的集或者数据集。如果X⊆T,称事务T包含X。对于一个项集X和一个交易集A,X在A中的支持度定义为X在A中的任务被重新运行的代价。支持计数与A中总的交易个数之比,记作sup(X)。如果X的MapReduce采用“分而治之”的思想,有效地降低每一部支持度大于某个给定的最小阈值,则称X是频繁的。分的运算复杂

10、度,提高了运算效率,屏蔽了底层的实现细节,频繁项集挖掘就是要在事务数据库里找出所有大于给有效降低并行编程难度,提高编程效率。它的不足主要体现定的最小支持度的频繁项集。频繁闭项集是一组事务都包在以下方面:首先它善于处理松耦合型的数据,对不容易分含的项的最大项集。频繁闭项集和频繁项集的信息量相等,解成多个相互独立的子任务的计算任务的处理效率很低;其——————————————作者简介:陈凤娟,女,辽宁本溪人,硕士,副教授,研究领域:数据挖掘、粗糙集。-59-学术探讨应用技术与研究201

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。