关联规则挖掘方法改进

关联规则挖掘方法改进

ID:6104606

大小:157.44 KB

页数:4页

时间:2018-01-02

关联规则挖掘方法改进_第1页
关联规则挖掘方法改进_第2页
关联规则挖掘方法改进_第3页
关联规则挖掘方法改进_第4页
资源描述:

《关联规则挖掘方法改进》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第38卷第2期东北师大学报(自然科学版)Vol.38No.22006年6月JournalofNortheastNormalUniversity(NaturalScienceEdition)June2006[文章编号]10001832(2006)02001504关联规则挖掘方法的改进伊卫国,卫金茂,王名扬(东北师范大学物理学院,吉林长春130024)[摘要]分析了关联规则的衡量标准,针对其中的缺点和不足,提出了一种匹配度方法用以取代置信度,并将匹配度方法生成的规则与支持度-置信度框架生成的规则进行了比较.结

2、果表明:用匹配度方法生成的规则不仅前件和后件具有较高的相关性,而且减少了冗余规则的生成.[关键词]数据挖掘;关联规则;相关性;匹配度[中图分类号]TP181[学科代码]12010[文献标识码]AY),即confidence(XY)=

3、{T:X∀YT,0引言T#D}

4、/

5、{T:XT,T#D}

6、.给定一个交易集D,挖掘关联规则就是找出在交易数据库中挖掘关联规则是数据挖掘领支持度和置信度分别大于用户给定的最小支持度[1]域中的一个非常重要的课题.关联规则是发现(minsup)和最小置信度(m

7、inconf)的关联规则.因数据库中不同项之间的联系,这些规则可用于发此挖掘关联规则可分解为如下两个子问题:现顾客购买行为模式,如购买了某些商品对购买(1)找出交易数据库D中所有大于等于用户其他商品的影响.这样的规则可应用于商品货架指定最小支持度的项目集(itemset).具有最小支设计、货存安排以及根据购买模式对用户进行分持度的项目集称为频集.类等.(2)利用频集生成关联规则.对每一个频集关联规则的基本问题描述如下:设I{i1,i2,M,找到M的所有非空子集m,若support(M)/,im}是二进制文字的集合,

8、其中的元素称为项support(m)∃minconf,就生成关联规则m(item).定义交易(transaction)T为项的集合,并(M-m),support(M)/support(m)为规则m且TI,定义D为交易T的集合.设X是I中(M-m)的置信度.其中m定义为规则的前件,若干项的集合,如果XT,那么称交易T包含M-m定义为规则的后件.X.在项目集中所包含的项的个数成为项目集的由于频集的生成需要多次扫描数据库,算法长度.关联规则是形如XY的蕴涵式,这里的频率显得非常关键,所以目前许多研究都集中X!I,Y!

9、I,并且X!Y=.规则XY在交在提高频集生成的算法效率上.R∀Agrawal等人易数据库D中的支持度(support)是交易集中包[2]含X和Y的交易数与所有交易数之比,记为提出了apriori算法;Park等人提出了PHD算support(XY),即support(XY)=

10、{T:法.还有许多比较热门的研究课题,如apriori算X∀YT,T#D}

11、/

12、D

13、.规则XY在交易集法的改进,关联规则的增量更新,有效关联规则的[3-8]中的置信度(confidence)是指包含X和Y的交易研究,基于神经网络的关联规则

14、等.本文主数与包含X的交易数之比,记为confidence(X要讨论如何进一步挖掘有效关联规则.[收稿日期]20050808[基金项目]吉林省科技发展计划项目(20040529)[作者简介]伊卫国(1979-),男,硕士,主要从事人工智能、数据挖掘研究;卫金茂(1967-),男,博士,副教授,主要从事数据库开发、数据挖掘研究.16东北师大学报(自然科学版)第38卷了F出现时E出现的可能性,而没有考虑到F不1关联规则衡量标准出现时E出现的可能性,以及F和E是否相关.所以使得挖掘出的许多关联规则是无效的.在

15、生成关联规则的模式中,一直沿用支持度-置信度的框架来生成关联规则.但是利用该2衡量标准的改进框架生成规则时,会产生大量冗余的、不相关的规则.我们首先看一个实例,如表1.针对关联规则的上述问题,我们发现置信度表1一组交易数据的描述不够完善,不足以表达项目集之间的相关TIDitems程度.在文献[8]中作者利用有效度取代置信度的01C,R,K,H,M,N方法来产生关联规则.有效度的定义为:有效度=02C,R,K,H,M,N(在D数据库中X与Y同时出现的概率)-(在03E,C,R,KD数据库中X#与Y同时出现的概率)

16、.用公式表04E,F,R,H,N示为:Validity=P(XY)-P(X#Y).其中定义Va05E,F,R,Hlidity为有效度.我们发现有效度的引入虽然可以06E,F,R减少一部分冗余规则的产生,但是仍然不能消除07E,R不相关规则的产生.还是以表1为例,看这样一个08F,R规则EF,其支持度为0∀3,有效度Validity=09E,R0∀3-0∀2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。