资源描述:
《关联规则分析及应》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、DataMining关联规则分析及应用2012-10-121目录基本概念关联规则挖掘过程分类关联规则的价值衡量4123挖掘算法关联规则的应用562012-10-122绪论在购买铁锤的顾客当中,有70%的人同时购买了铁钉。年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。在超市购买面包的人有70%会购买牛奶2012-10-123绪论2012-10-124一、基本概念设I={I1,I2,…,In}是项的集合。任务相关数据D:是事务(或元组)的集合。事务T:是项的集合,且每个事务具
2、有事务标识符TID。项集A:是T的一个子集,加上TID即事务。项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集{I1,I2}。支持度计数(Supportcount):一个项集的出现次数就是整个数据集中包含该项集的事务数。2012-10-125一、基本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABIn(n=1,2,…)指具体项目,
3、如购物篮分析中:I1=苹果I2=面包I3=牛奶I4=尿布I5=啤酒Support-count(I1)=62012-10-126一、基本概念关联规则:形如A=>B的蕴涵式,其中A⊂I,B⊂I,并且A∩B=ф。支持度:关联规则在D中的支持度(support)是D中事务同时包含A、B的百分比,即概率。[规则代表性、重要性衡量]Support(AB)=P(A∩B)=support_count(A∩B)count(T)频繁项集:若一个项集的支持度大于等于某个阈值。2012-10-127一、基本概念置信度c:是包
4、含A的事务中同时又包含B的百分比,即条件概率。[规则准确性衡量]confidence(AB)=P(B
5、A)强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。2012-10-128=9support_count(AUB)support_count(A)二、关联规则挖掘过程两个步骤:找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。挖掘模式:2012-10-129min_supmin_conf产生频繁项集生成强关联规则规则评价用户D
6、atabase二、关联规则挖掘过程关联规则挖掘举例:假定数据包含频繁项集M={I1,I2,I5}。可以由M产生哪些关联规则?2012-10-1210二、关联规则挖掘过程M的非空真子集有{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5}。则结果关联规则如下,每个都列出置信度。2012-10-1211项集支持度计数67622{I1}{I2}{I3}{I4}{I5}项集支持度计数{I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2项集支持
7、度计数{I1,I2,I3}2{I1,I2,I5}2二、关联规则挖掘过程I1I2I5,I1I5I2,I2I5I1,I1I2I5,I2I1I5,I5I1I2,2012-10-1212confidence=2/4=50%confidence=2/2=100%confidence=2/2=100%confidence=2/6=33%confidence=2/7=29%confidence=2/2=100%二、关联规则挖掘过程如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为
8、最终的结果输出,因为只有这些是产生的强关联规则。2012-10-1213I1I5I2,I2I5I1,I5I1I2,confidence=2/2=100%confidence=2/2=100%confidence=2/2=100%二、关联规则挖掘过程对强关联规则的批评:eg:2012-10-1214项目打篮球不打篮球合计喝麦片200017503750不喝麦片10002501250合计300020005000在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦
9、片粥。打篮球=>喝麦片粥[40%,66.7%]是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。打篮球=>不喝麦片粥[20%,33.3%]这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。二、关联规则挖掘过程兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B的相关程度。P(AB)P(A)P(B)若I(AB)=1,即P(A)P(B)=P(AB),A与B相互独立;若I(AB)<1,表示A出现和B出现是负相关的。