挖掘关联规则的快速算法

挖掘关联规则的快速算法

ID:237112

大小:594.79 KB

页数:21页

时间:2017-07-11

挖掘关联规则的快速算法_第1页
挖掘关联规则的快速算法_第2页
挖掘关联规则的快速算法_第3页
挖掘关联规则的快速算法_第4页
挖掘关联规则的快速算法_第5页
资源描述:

《挖掘关联规则的快速算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、挖掘关联规则的快速算法(英)RakeshAgrawalRamakrishnanSrikant威斯康辛大学,计算机系,麦迪逊全部或部分材料允许被免费拷贝,这些拷贝不是为直接的商业优势而制作的,VLDB的拷贝权是由VLDBE授予的.另外,拷贝或重新出版还需要金额和VLDBE的允许.第20届极大数据库程序会议智利圣地亚哥,1994IBM阿尔马丁研究中心圣塔克莱拉市650亨利道95120证摘要:针对找出销售交易中大量数据库里项目之间的关联规则问题,我们提出两种与已知算法完全不同的新的算法来解决此问题.观察数

2、据表明:这两种算法在从小问题的三个到大问题的多个度量的因子上都优于先前的算法.根据这两种算法的特点,我们还指出如何将它们合并才是一个最佳的混合算法,称为AprioriHybrid算法.按比例增大实验证明AprioriHybrid算法是随着交易数量按线性比例递增的,且它在交易大小和数据库中的项目上也有良好的递推性.1引言条形码技术的广泛应用使得零售商在收集和存储大量商品的价格数据时十分方便,简称为货篮数据.一条这样的数据记录通常都包括某个顾客的交易日期,交易中所购的物品项目.成功的组织者视这种数据库为

3、贸易市场基础结构的重要组成部分.他们专注于研究用数据库技术来推动市场信息化过程,这样市场经营者就可以有能力发展及实施为顾客制定购买产品的方案和策略[6].有关在货篮数据上挖掘关联规则的问题在[4]中已作介绍.举个例子:可能有98%的顾客在购买轮胎和汽车配件的同时接受了有关汽车的服务.找出所有这样的规则对于促进市场营销和提高顾客购买力是非常有价值的.另外还有价目表设计,商品上架设计,进货安排,根据购买行为模式对顾客进行分类.但这些应用中的数据库都是极其庞大的,因此,寻找一种快速的算法来完成此项任务是我

4、们的当务之急.以下是关于这个问题[4]的一个表述:令={}是个不同项目的集合,给定一个事务数据库,其中每一个事务是中一些项目的集合,且都与一个唯一的标识符相联.如果对于中的一个子集,有,我们就说事务包含.关联规则是形如20的蕴含式,其中,且=.如果事务数据库中有%的事务包含的同时也包含,则称关联规则的置信度为%.如果事务数据库中,有%的事务包含了,则称关联规则具有支持度%.这个规则在我们讨论多项集的问题时比[4]中的阐述要简单很多.给定一个事务集,挖掘关联规则的问题就是产生支持度和置信度分别大于用户

5、给定的最小支持度和最小置信度的关联规则.我们对事务集的内容属性方面不加以讨论,比如说,可以是一份数据文件,也可以是一张关系表,或者是一个关联表达式的结果.找出所有关联规则中的算法,我们称文章[4]提出的为AIS算法,文章[13]提出的为SETM算法.在本文中,我们介绍两种新的算法:Apriori和AprioriTid算法,基本上与先前的算法不同.我们将用实验结果证明这两种算法优于先前算法.它们之间的差距主要体现在问题大小的增大及问题范围从小问题的三个到大问题的多个度量的因子上变化.接着我们讨论由Ap

6、riori和AprioriTid算法合并而成的混合算法(AprioriHybrid算法)是如何的优异.实验证明AprioriHybrid算法具有良好的递推性能,开启了挖掘关联规则在数据库中应用的可行性.找出关联规则属于数据库挖掘范畴[3,12],也称为数据库中的知识发现[21].类似地,但不直接可应用的工作还包括分类规则的介绍[8,11,22],因果关联规则的发现[19],学习逻辑定义[18],函数的数据拟合[15]以及簇[9,10].非公开性的有关机器学习文献的作品是在[20]中的KID3算法.如

7、果应用在查找所有关联规则问题上,这个算法在与假定关联项的数目一样多的数据上进行运算时,运算量非常大.最近在数据库上的研究工作是由数据出发来定义关联函数[16].函数关联规则需要十分严格的条件.因此,定义一种函数规则为后,在[16]中描述的算法若从规则来考虑,就无法推出.我们考虑的这些关联规则要符合实际性质.规则的存在并不意味着也成立,因为后者可能不具备最小支持度.同样的,规则和的存在也不意味着成立,因为后者可能也不具备最小置信度.曾有一个关于测定“有用性”或“有趣性”规则的实验[20].无论是有用的

8、还是有趣的,通常都是依赖于运用的.它需要圈内人员去提供材料,让所有人知道规则的发现过程以及让规则清晰明了,如[7,14].在本文中,对这些观点我们不加以讨论,除了指出它们在规则发现体系中的必要特征,可以利用我们的算法作为发现过程中的引擎.1.1问题剖析和论文概要找出所有关联规则的问题可分解为以下两个小问题:201.找出事务中所有满足用户指定最小支持度的项集,每个项集的支持度就是包含项集的事务数.具有最小支持度的项集称为频繁项集,否则称为非频繁项集.在第二章,我们给出新

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。