关联规则的增量更新算法研究

关联规则的增量更新算法研究

ID:11203508

大小:27.61 KB

页数:13页

时间:2018-07-10

关联规则的增量更新算法研究_第1页
关联规则的增量更新算法研究_第2页
关联规则的增量更新算法研究_第3页
关联规则的增量更新算法研究_第4页
关联规则的增量更新算法研究_第5页
资源描述:

《关联规则的增量更新算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联规则的增量更新算法研究(1)摘 要 随着数据库的不断变化,关联规则的增量更新变得尤为重要。为了涟更好的对关联规则进行有效的更新,本文辐对已经提出的经典的关联规则更新算法FィUP和IUA算法进行分析,指出其优缺瀹点;最后对另外的改进算法,做一个简单迫的叙述。关键词 数据库;关联规则;增ヰ量更新 关联规则反映了数据库中数据项遣目之间有趣的关联关系,而其中发现频繁ね项目集是关联规则挖掘应用中的关键技术谫和步骤。关于频繁项目集的挖掘算法研究腱,人们对此进行了大量的工作,其中以R.Agrawal等人提出的Apr

2、iori、AprioriTid等算法最具靖有影响力和代表性。而这些算法的提出都骄是在挖掘数据库和最小支持度不变的条件下进行的。但实际中,遇到的情况可能是毹:随着时间的推移,挖掘数据库的规模可廪能不断膨胀或需要删除一部分记录,或者舞需要对最小支持度进行调整从而逐步聚集填到我们感兴趣的频繁项目集上。因而如何若从数据发生变动后的数据库中高效地对已木经推导出的关联规则进行更新,具有非常亠重要的应用价值,这就是所谓的增量式挖缨掘关联规则的问题。1 关联规则问题描屿述:设I={i1,i2,...,im苎}是m个不同

3、项目的集合,给定一个事务︼数据库D,其中D每一个事务T是I中一︱组项目的集合,即TI,T有一个惟一的统标志符TID。如果对于I中的一个子集欷X,有XT,我们就说一个事务T包含Xサ。一条关联规则(associatio13/13扪nrule)就是一个形如X=>Y的蕴涵式,其中X,YT,而X∩Y=Φ。关镫联规则成立的条件是:①它具有最小支持鬣度s,即事务数据库D中至少有s%的事彤务包含X∪Y;②它具有最小可信度c,龄即在事务数据库D中包含X的事务中至少有c%同时也包含Y。给定一个事务集DЪ,挖掘关联规则问题就

4、是产生支持度和可皋信度分别大于用户给定的最小支持度和最小可信度的关联规则,也就是产生强规则菜的问题。关联规则的挖掘问题可以分解为搬以下两个问题:(1)找出事务数据库中妆所有具有用户最小支持度的项目集。具有妇用户指定最小支持度的项目集称为频繁项邹目集,反之称为非频繁项目集。一个项目中所含项目的个数称为该项目的长度。(蠢2)利用频繁项目集生成关联规则。对于睇每一个频繁项目集A,若BA,B≠Φ,恚且support(A)/suppor入t(B)>minconf,则有关联规郫则B=>(A-B)。目前大多数的研究

5、主要集中在第一个问题上面。2 Apr澍iori核心算法[1]Agrawal唼等人于1994年提出了一个挖掘顾客交炫易数据库中项集间的关联规则的重要方法熠Apriori算法,其核心是基于两个庖阶段频繁项集思想的递推算法。算法的基命本思想是首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度魂一样。然后由频繁项集产生强关联规则,嫌这些规则必须满足最小支持度和最小可信年度。Apriori核心算法思想简要描Ё述如下:该算法中有两个关键步骤连接步噔和剪枝步。(1)连接步:为找出Lk(竦13/13频繁k一

6、项集),通过Lk-1与自身连郡接,产生候选k-项集,该候选项集记作圊Ck;其中Lk-1的元素是可连接的。氇(2)剪枝步:Ck是Lk的超集,即它佃的成员可以是也可以不是频繁的,但所有析的频繁一项集都包含在Ck中。扫描数据绻库,确定Ck中每一个候选的计数,从而﹂确定Lk(计数值不小于最小支持度计数遁的所有候选是频繁的,从而属于Lk)。芒然而,Ck可能很大,这样所涉及的计算狼量就很大。为压缩Ck,使用Aprio弧ri性质:任何非频繁的(k-1)-项颗集都不可能是频繁k-项集的子集。因此棘,如果一个候选k-项集的(

7、k-1)项孤集不在Lk中,则该候选项也不可能是频ɑ繁的,从而可以由Ck中删除。这种子集瞳测试可以使用所有频繁项集的散列树快速搞完成。这个方法要求多次扫描可能很大的萦交易数据库,即如果频集最多包含10个眦项,那么就需要扫描交易数据库10遍,黍这需要很大的I/O负载。可能产生大量锕的候选集,以及可能需要重复扫描数据库辋,是Apriori算法的两大缺点。3钆 关联规则增量更新关联规则反映了数据库中数据项目之间有趣的关联关系,而其颧中发现频繁项目集是关联规则挖掘应用中嘉的关键技术和步骤。关于频繁项目集的挖х掘算法

8、研究,人们对此进行了大量的工作次,其中以R.Agrawal等人提出的蘑Apriori、AprioriTid等算法最具有影响力和代表性。而这些算法的提出都是在挖掘数据库和最小支持度兕不变的条件下进行的。实际中,数据库的狮规模随着时间,可能不断膨胀或需要删除循13/13一部分记录,或者需要对最小支持度进行お调整从而逐步聚集到我们感兴趣的频繁项氐目集上。因而如何高效地从更新后的数据鲥库中对已经推导出的关联规则进行更

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。