关联规则相关性的度量

关联规则相关性的度量

ID:5284108

大小:156.64 KB

页数:3页

时间:2017-12-07

关联规则相关性的度量_第1页
关联规则相关性的度量_第2页
关联规则相关性的度量_第3页
资源描述:

《关联规则相关性的度量》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第27卷第4期计算机应用Vol_27No.42007年4月ComputerApplicationsApr.2007文章编号:1001—9081(2007)04—0892—03关联规则相关性的度量郭俊芳,谢益武,周生宝(1.大连海事大学计算机科学与技术学院,辽宁大连116026;2.大连海事大学数理系,辽宁大连116026)(zhouguo@newmail.dlmu.edu.cn)摘要:用ApHofi算法生成的关联规则包含有无用规则,甚至误导规则。为了使生成的规则更有效,引入了统计学中的卡方检验从统计意义上检验规则是否关联,并找

2、到卡方检验值与相关系数的数量关系,实现了两种方法的统一,并用基于相关系数的算法去生成关联规则。关键词:关联规则;相关度;卡方检验;相关系数中图分类号:TP3l1.13;TP301.6文献标识码:AMeasurementofassociationrulescorrelationGUOJun—fang,XIEYi—WU,ZHOUSheng—bao(1.CollegeofComputerScienceandTechnology,DalianMaritimeUniversity,DalianLiaoning116026,China;2

3、.DepartmentofMathematicsandPhysics,DalianMaritimeUniversity,DalianLiaoning116026,China)Abstract:AssociationrulesgeneratedbyApriorialgorithmincludessomeuselessandevenmisleadingrules.Togainmoreefectiverules,astatisticalcriteria,Chi—Squaredwasusedtomeasuretheassociatio

4、ns,furthermorethequantitativerelationsbetweentheChi—SquredtestandcorrelationcoeficientWasfoundout,andtwomeasureswasu~tedtogenerateassociatlonruleswithcorrelationcoeficient.Keywords:associationrules;correlation;chi.squaredtest;correlationcoeficientconf(A~B)只是在给定A的情况下

5、出现的条件概率,并没0引言有考虑在整个数据集中出现的随机概率sup(B)。如果的在支持度一置信度框架下,关联规则是数据项同时满足随机概率本身就很大,那么置信度大的规则就不一定是强蕴最小支持度阈值(mlnsup)和最小置信度阈值(minconf)的规涵关系。所以单凭置信度不能将强蕴涵的关联关系从随机关则。但用此框架产生的规则有些是多余的,有些甚至具有很系中分离出来。上例可乐的随机概率sup(可乐):0.75>强的误导性。conf(牛奶可乐)0.66,这意味着在买牛奶的前提下买可某超市一段时间内形成1000条交易记录,同时购买牛乐

6、的概率比随机情况还少9%,显然是错误的。而cony(牛奶奶、可乐,只买牛奶,只买可乐,两者都不买的数据记入表1。可乐)=0.875>sup(可乐)=0.75是正确的强蕴涵规则,因此表在统计学中称为列联表。为不买牛奶会买可乐的概率从随机情况下提高12.5%。这时考察买牛奶与买可乐的关系:设minsup=0.3,mJnconf=可以说牛奶和可乐是负关联的,一个出现会减少另一个出现O.6的概率。另一种情况sup(A)=1,sup()=0.7,conf(A~B)表1牛奶与可乐列联表=0.7,cony()=1,但显然A与没有关系是独立的

7、,也即置信度为1的规则并不一定是强关联规则。因此需要引入其他方法去度量两项间是否有关联及关联程度以减少弱关联规则,负关联规则。严格说关联与不独立的概念是一致的,不同于相关。关联包括各种关系而相关只指线性关系。本文介绍了卡方检验(独立性检验),发现了对于二态变量关联性与相关性的关系,得出可通过度量相关性去获得关联规则。sup(牛奶j可乐)=0.4,co牛奶可乐)0.66>minconf】卡方检验根据支持度一置信度框架得出是强关联规则,即买牛奶的人有66%的可能性会买可乐,增加牛奶的销量就会刺激可针对项集间的关联关系许多学者、专家

8、进行了研究。乐的销量。但事实果真如此吗?Piatetsky-Shapiro提出了P—S兴趣度,interest=sup(A~B)一再看不买牛奶与买可乐的关系:sup(A)sup(B)。在文献[5]中作者对其进行了改进,综合考虑sup(牛奶可乐)=0.35,co,牛奶可乐)=0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。