欢迎来到天天文库
浏览记录
ID:26905049
大小:884.50 KB
页数:55页
时间:2018-11-30
《《关联报告人:熊赟》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、关联报告人:熊赟内容概要基本概念其他Apriori算法关联规则分类FP-Growth算法第3章关联3.1基本概念3.2原理3.3核心算法3.4其他自然界中某种事物发生时其他事物也会发生的这样一种联系称之为关联。反映事件之间依赖或关联的知识称为关联型知识(又称依赖关系)。(?)定义3.1:关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联可分为简单关联、时序关联、因果关联。基本概念关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。关联分析的结果常有两种:关联规则和序列模式。关联规则用于寻找在同一个事件中出现的不同项的
2、相关性;序列模式与此类似,但它寻找的是事件之间时间上的相关性。关联分析关联规则发现的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)组成。定义3.2:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。关联规则以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律——“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服”等等。这些规律即关联
3、规则。关联规则定义3.3:关联规则挖掘的交易数据集记为D(一般为交易数据库),D={T1,T2,…,Tk,…,Tn},Tk(k=1,2,…,n)称为交易,对应每一个交易有唯一的标识,记作TID。元素im(m=1,2,…,p)称为项。设I={i1,i2,…,im}是D中全体项组成的集合,且TkI。交易号(TID)项集合(Itemsets)T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X。若X,Y为项集,XI,YI,并且XY=,则形如X==>Y的
4、表达式称为关联规则。关联规则形式化定义置信度支持度关联规则度量规则XY在交易数据集D中的置信度是对关联规则准确度的衡量。度量关联规则的强度。即在所有出现了X的活动中出现Y的频率,即规则XY的必然性有多大。记为confidence(XY)。计算方法:包含X和Y的交易数与包含X的交易数之比:confidence(XY)=P(Y∣X)=
5、{T:XYT,TD}
6、/
7、{T:XT,TD}
8、×100%规则XY在交易数据集D中的支持度是对关联规则重要性的衡量,反映关联是否是普遍存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率
9、记为:support(XY)。计算方法:交易数据集中同时包含X和Y的交易数与所有交易数之比:support(XY)=P(X∪Y)=
10、{T:XYT,TD}
11、/
12、D
13、×100%(其中
14、D
15、是交易数据集D中的所有交易数)最小置信度阈值最小支持度阈值同时满足最小置信度阈值和最小支持度阈值的关联规则为强关联规则,是有意义有价值。关联规则度量在给定一个交易数据集D,挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度阈值和最小置信度阈值的关联规则。关联规则度量经常使用的“支持度-可信度”的框架。这样的结构有时会产生一些错误的结果。例:假设体育类用品零售商
16、调查了10000名顾客在购买什么商品,得到的结果是6000名顾客购买篮球,7500名顾客购买足球,4000名顾客购买篮球、足球。设最小支持度为30%,最小置信度为60%,可得到如下的关联规则:篮球足球(支持度=40%,置信度为66%)这条规则其实是错误的,因为购买足球的比例是75%,甚至大于66%。关联规则度量描述了对于关联规则(X==>Y)在没有任何条件影响时,Y在所有交易中出现的频率有多大。即没有X的作用下,Y本身的支持度。期望可信度改善度描述X的出现对Y的出现影响多大,是置信度与期望可信度的比值。P(Y
17、X)/P(Y)关联规则度量兴趣度?(置信度-支持度)/
18、Max{置信度,支持度}一条规则的兴趣度大于0,实际利用价值越大;小于0则实际利用价值越小。名称描述公式置信度X出现的前提下,Y出现的频率P(Y
19、X)支持度X、Y同时出现的频率P(X∩Y)期望可信度Y出现的频率P(Y)改善度置信度对期望可信度的比值P(Y
20、X)/P(Y)关联规则度量找出所有具有最小支持度的项集(频繁项集)。用Apriori、FP-Growth等算法来找出频繁项集。使用频繁项集生成期望的关联规则对于每一个频繁项集l,找出其中所有的非空子集;然后,对于每一个这样的子集a,如果support(l)与support(a)的比值大于最小可信度,则存在规则a
此文档下载收益归作者所有