并行频繁项集挖掘综述

并行频繁项集挖掘综述

ID:15569517

大小:204.50 KB

页数:6页

时间:2018-08-04

并行频繁项集挖掘综述_第1页
并行频繁项集挖掘综述_第2页
并行频繁项集挖掘综述_第3页
并行频繁项集挖掘综述_第4页
并行频繁项集挖掘综述_第5页
资源描述:

《并行频繁项集挖掘综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、并行频繁项集挖掘算法综述陈晓云赵娟(兰州大学信息科学与工程学院兰州730000)摘要:本文介绍了并行频繁项集挖掘算法的研究概况,对一些经典的并行频繁项集挖掘算法进行了分析和评价,在文章的最后对并行频繁项集挖掘进行了展望。关键字:并行化;频繁项集;数据挖掘;Abstract:Thispaperintroducestheparallelfrequentitemsetminingalgorithm,sometypicalparallelfrequentitemsetminingalgorithmwereanalysedandevaluated.Attheendo

2、fthearticlesomefuturedirectionsinparallelfrequentitemsetminingwerediscussed.Keywords:parallel;frequentitemset;datamining;1引言国内外许多的研究工作者都对频繁项集的挖掘表现出极大的兴趣,至今已经研究出许多频繁项集挖掘算法,其中最为经典的两个算法就是由R.Agrawal和R.Srikant于1994年提出的Apriori算法和J.Han等人2000年提出的FP-Growth算法。频繁项集挖掘的算法大多都是基于这两种算法的原理,被分为类Apr

3、iori算法和类FP-Growth算法。由于数据挖掘在开始被提出时就是面向海量数据的,庞大的搜索空间使得许多传统的数据挖掘算法的效率并不理想。高性能并行环境为数据挖掘的发展开辟了一条新的路径,研究并行环境下的数据挖掘并行算法成为了数据挖掘界的热点。频繁项集挖掘也不例外,经过这些年的研究,并行化的频繁项集挖掘算法已经取得了一些成果。目前已有许多工作者致力于研究并行频繁项集挖掘算法,并已有一些成绩。其中影响力比较大的包括R.Agrawal等人提出的类Apriori算法的并行算法CountDistribution,DataDistribution和Candida

4、teDistributionMethods,2004年OsmarR.Zaiane等人提出的MLFPT算法和Javed和Khokhar等人提出的PFP-tree算法,分别是基于共享内存和分布式内存的类FP-Growth并行化频繁项集挖掘算法。2频繁项集挖掘的基本概念定义2-1(支持度与置信度)设I={I1,I2,…,Im}是项的集合。设任务相关的数据库D是数据库事务的集合,其中每个事务T是项的集合,。每一个事务有一个标识符,称作TID。设A是一个项集(itemset),也称模式(pattern),事物T包含A当且仅当。关联规则是形如的蕴含式,其中,,并且。规

5、则在事务集D中成立,是由支持度(support)sup和置信度(confidence)conf来约束的。其中sup是D中事务包含的百分比,即P(),conf是D中包含A的事务同时也包含B的百分比。即P()。即support()=P()confidence()=P()定义2-2(频繁k-项集)设I={I1,I2,…,Im}为项的集合,其中Ij(j=1,2,…,m)表示一个项。集合被称为项集,如果。如果

6、X

7、=k,则X被称为k-项集。项集X的支持度是中包含X的事务数占所有事务数的百分比,它是概率P(X),记为:sup(X)。给定事务数据库和最小支持度阈值,如果

8、,则项集X被称为频繁项集,如果

9、X

10、=k,则X被称为频繁k-项集。定义2-3(闭频繁项集和极大频繁项集)如果不存在真超项集Y使得Y与X在S中有相同的支持度计数,则称项集X在数据集S中是闭合的。如果X在S中是闭合的和频繁的,则项集X是数据集S中的闭频繁项集。如果X是频繁的,并且不存在超项集Y使得并且Y在S中是频繁的,则项集X是S中的极大频繁项集。3并行频繁项集挖掘算法频繁模式挖掘的搜索空间可以被模拟成类似格的结构,其中由模式的大小来决定它处于格中的哪一层,每一层又以某种顺序进行排列。模式格的维数决定了问题的指数级别[24]。比如,对于一个有着n个不同项的事务

11、数据库,可能的模式就会有2n。也就是说,如果一个事务数据库有100个不同的项,搜索空间就达到21001030。巨大的搜索空间使得在大型数据库上的频繁模式的挖掘成为一个计算密集型问题。然而传统的频繁模式挖掘算法被单一处理器和有限的内存空间所限制,不适用于大型数据库。因此,利用高性能并行计算来改善现有频繁模式挖掘算法的瓶颈,使其适用于大规模数据库是非常必要的。R.Agrawal等人在Apriori算法的基础上提出了并行算法CountDistribution,DataDistribution和CandidateDistributionMethods。2004年O

12、smarR.Zaiane等人提出的MLFPT算法和Javed和Kh

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。