资源描述:
《DM4关联规则.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘发现知识的类型概念描述(广义知识)关联知识分类知识预测型知识偏差型知识从数据分析角度出发,数据挖掘可以分为两种类型描述性数据挖掘:以简洁概述的方式表达数据中的存在的一些有意义的性质预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为Chapter4AssociationRule&RoughSet4.1关联规则概述4.2经典的关联规则挖掘算法4.3从事物数据库中挖掘多层关联规则4.1SummarizationofAssociationRuleMining关联规则模式是属于描述型
2、模式,发现关联规则的算法属于无监督学习的方法。关联规则的意义和度量关联规则挖掘的主要对象是事务数据库(transactionDB),针对的应用大多是售货数据,一般情况下,一个事务由如下几个部分组成:事务处理时间,一组顾客购买的物品,物品的数量及金额,顾客的标识号。在事务数据库中,考察一些涉及到许多物品(项)的事务:事务1中出现了物品甲,事务2中出现了物品乙,事务3中同时出现了物品甲和乙,then,事务甲和乙在事务中的出现相互之间是否有一定的规律?在数据库知识发现中,关联规则就是描述这种在一个事务中物品之间
3、同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大影响。例如某超级市场的销售系统,记录了5个顾客的购物清单流水号所购物品清单1球鞋、手套、网球拍2摩托车、手套、头盔3球鞋、摩托车、手套、头盔4头盔5摩托车、头盔购买摩托车的人很大可能同时购买头盔有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。例如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做
4、身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。在这条规则中,“年龄在40岁以上”是物品甲,“工作在A区”是物品乙,“向保险公司索赔过”则是物品丙。可以看出来,A区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。事务与项集设:R={I1,I2,…,In}是一组项集(项目
5、集,属性集,itemset)W是一组与R相关的事务集。W中的每个事务T是一组项(属性)。假设有一个项集A,一个事务T,如果A∈T,则称事务T支持项集A。例如:R={I1,I2,I3,I4,I5,I6,I7}事务集W:事务T1I1,I2,I5事务T2I1,I5,I7事务T3I2,I4,I6,I7事务T4I3,I7事务T5I5,I6假设有项集A={I1,I5},则称事务T1,事务T2支持项集A。规则表示由事务与项集表,最终得到的关联规则是如下形式的一种蕴涵式:TIDItemSetT1牛奶,面包,黄油T2牛奶,
6、面包,啤酒T3面包,黄油,啤酒T4黄油,酱油,餐巾纸T5餐巾纸,拖把R={牛奶,面包,黄油,啤酒,酱油,餐巾纸,拖把}A={面包},B={黄油}???A={面包},B={拖把}???A={餐巾纸,牛奶},B={黄油}???……Howtoevaluatethisrule?描述关联规则属性的四个参数(1)可信度(condifence),设W中支持物品集A的事务中,有c%的事务同时也支持物品集B,c%称为关联规则的可信度。是对关联规则的准确度的衡量。(2)支持度(support),设W中有s%的事务同时支持物品
7、集A和B,s%称为关联规则的支持度。是对关联规则重要性(或适用范围)的衡量。支持度说明了这条规则在所有事务中有多大代表性,支持度越大,关联规则越重要,应用越广泛。(3)期望可信度(expectedconfidence),设W中有e%的事务支持物品集B,e%称为关联规则的期望可信度。描述的是在没有任何条件影响时,物品集B在所有事务中出现的概率。或者说是在没有物品集A的作用下,物品集B本身的支持度。(4)作用度(lift),是可信度与期望可信度的比值。描述的是物品集A的出现对物品集B的出现有多大影响。通过可信
8、度对期望可信度的比值反映了在加入“物品集A出现”的这个条件后,物品集B的出现概率发生了多大的变化。作用度越大,说明物品集B受物品集A的影响越大。四个参数的计算公式可信度(condifence)在物品集A出现的前提下,B出现的概率P(B
9、A)支持度(support)物品集A、B同时出现的概率P(B∩A)期望可信度(expectedconfidence)物品集B出现的概率P(B)作用度(lift)可信度对期望可信度的比值P(B
10、A