基于FP-矩阵的频繁项集挖掘算法.pdf

ID：52970220

大小：360.84 KB

页数：5页

时间：2020-04-05

资源描述：

《基于FP-矩阵的频繁项集挖掘算法.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、2011年8月中国制造业信息化第40卷第15期基于FP一矩阵的频繁项集挖掘算法刘芝怡，尹飞鸿(常州工学院计算机信息工程学院，江苏常州213002)摘要：针对频繁项集挖掘时间与空间效率低的问题，提出一种基于FP一矩阵的高效频繁项集挖掘算法。用此算法构造FP一矩阵压缩事务数据库，无需递归构造条件模式树，仅需3次扫描数据库即可生成所有频繁项集。最后的实验证明了该算法的有效性。关键词：数据挖掘；频繁项集；FP一矩阵中图分类号：TP311文献标识码：A文章编号：1672—1616(2011)15—0040一O4目前频繁项集挖掘已成为了数据挖掘领域中用了如下的分治策

2、略：首先，将提供频繁项集的数的一个基本问题，广泛应用于关联规则挖掘、搜索据库压缩成一棵频繁模式树(FP一树)，但仍然保引擎、web日志分析等领域。在挖掘频繁项集的留项集关联信息。然后，将这种压缩后的数据库分方法中，主要以Agrawal1993年提出的Apriori[-2]成一组条件数据库(一种特殊类型的投影数据库)，算法最具代表性。Apriori算法采用自底向上的思每个条件数据库关联一个频繁项，并分别挖掘每个想，利用已知的—l来生成，再扫描一次数据数据库。库来判断候选项集是否频繁。算法的主要时间消耗算法FP—Growth描述如下_6j：在删减候选项集以及

3、确定频繁项集上。其缺输入——事务数据库DB，最小支持度Min—点主要有：(1)需要多次扫描数据库，在挖掘海量数Supp。据时，数据库的扫描会相当耗时。(2)需要生成大输出——频繁模式的完全集。量的候选频繁项集，存储和计算这些频繁项集的支具体步骤：持度非常麻烦和耗时。之后许多学者依照此算法a．根据事务数据库DB构造FP一树：(1)扫描的缺点提出了许多改进算法，旨在减少数据库扫描DB一次，产生所有频繁l_项集及其支持度计数，的次数和增加执行效率，例如DHPE4J算法可以按其支持度降序排列插入到项头表。(2)gJ建FP一减少候选项集的产生，DICe5]算法可同

4、时扫描多个树的根节点，用“null”标记。对DB中的每个事务阶段，降低数据库的扫描次数。这些改进算法在一T做如下处理：(1)按项头表中次序排列T中的频定程度上提高了效率，但由于都未脱离Apriori算繁项目，设排序后的结果为[PIP]，其中P是第一法的框架，仍然无法克服Apriori方法一些固有的个项目，P是剩余项目的列表。(2)如果P非空，递缺陷，如可能产生大量的候选项集，需要反复扫描归调用insert—tree([PIP]，T)。过程insert～数据库。对此韩家烨等提出了一种本质上不同于tree([P『P]，T)的执行步骤为：如果T有子女NApri

5、ori的挖掘频繁模式的有效算法——FP一使得N．node—na?Tte=P，则N的计数增加l；否则(wth6。此算法利用FP一树存储数据库中的频集，只需扫描数据库2次，并且不需要产生候选创建一个新节点N，将其节点名称node—name、节项集，效率比Apriori算法要高一个数量级，但该算点记数sup—count分别设为P，1，由父节点指针node法在执行过程需递归构造基于内存的FP一树，因—parent链接到它的父节点，并通过节点链nodelink将其链接到同名节点。此会占用大量的内存空间，当数据库很大时，这将—成为算法的主要瓶颈。b．FP一树的挖掘通

6、过调用过程FP～Growth(FP—tree，nul1)实现。1FP—Growth算法FP—Growth算法刚好扫描2次事务数据库：FP—Growth算法是一种深度优先算法，它采第一次扫描生成频繁1一项集；第二次扫描构造收稿日期：2011—04—19作者简介：刘芝怡(1977一)，女，江苏常州人，常州工学院讲师，硕士，主要研究方向为数据库技术、计算机网络、数据挖掘。·计算技术·刘芝怡尹飞鸿基于FP一矩阵的频繁项集挖掘算法41FP～树。FP—Growth算法将发现长频繁模式的下面用一个例子来说明FP一矩阵的构造过问题转换成递归地发现一些短模式，然后连接后程

7、。表1是一个交易数据库，假设最小支持度为缀。它使用最不频繁的项作后缀，提供了很好的选60％，则对应的最小支持度计数为3次(5×60％：择性，大大降低了搜索开销。但是该算法也存在一3)。些缺点：(1)在挖掘频繁项集时，FP—Growth算法表1交易数据库示例需要递归地生成条件FP一树，并且每产生一个频繁模式就要生成一个条件FP一树。在支持度阈值较小的情况下，也要产生数以万计的频繁模式。动态地生成和释放这些大量的条件FP一树，将会消耗大量的时间和空间。(2)由较大的条件模式树构造较小的条件模式树需要扫描原有模式树2次，这也是非常浪费时间的。(3)FP一树和条

8、件FP一树第一次扫描原始数据库之后，对频繁1一项集需要自顶向下生成，而频繁模式的

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于FP-矩阵的频繁项集挖掘算法.pdf

基于FP-矩阵的频繁项集挖掘算法.pdf

相关文章

相关标签