资源描述:
《第4章 数据仓库关联规则》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据仓库与数据挖掘第4章关联规则2012/11/61什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、loss-leaderanalysis、聚集、分类等。举例:规则形式:“Bodyead[support,confidence]”.buys(x,“diapers”)buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)grade(x,“A”)[1%,75%]2012
2、/11/6数据仓库与数据挖掘2工业控制技术研究所4.1概述一、概述关联规则(AssociationRuleMining)挖掘是数据挖掘中最活跃的研究方法之一。最早是由R.Agrawal等人提出的。其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法:Apriori算法和FP-growth算法2012/11/6数据仓库与数据挖掘3关联规则:基本概念给定:(1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)查找:所有描述一个项目集合与其他项
3、目集合相关性的规则E.g.,98%ofpeoplewhopurchasetiresandautoaccessoriesalsogetautomotiveservicesdone应用*护理用品(商店应该怎样提高护理用品的销售?)家用电器*(其他商品的库存有什么影响?)2012/11/6数据仓库与数据挖掘44.2引例假定某超市销售的商品包括:bread、bear、cake、cream、milk和tea交易号TID顾客购买商品ItemsT1breadcreammilkteaT2breadcreammilkT3cakemilkT4milkteaT5breadcakem
4、ilkT6breadteaT7beermilkteaT8breadteaT9breadcreammilkteaT10breadmilktea2012/11/6数据仓库与数据挖掘54.2引例定义4.1项目与项集设I={i1,i2,…,im}是m个不同项目的集合,每个ik(k=1,2,……,m)称为一个项目(Item)。项目的集合I称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。举例:超市项集:I={bread,beer,cake,cream,milk,tea}2012/11/6数据仓库与数据挖掘6
5、4.2引例定义4.2交易每笔交易T(Transaction)是项集I上的一个子集,即TI,但通常TI。对应每一个交易有一个唯一的标识——交易号,记作TID交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。交易集D中包含交易的个数记为
6、D
7、。举例:交易号为T3,是一个2-项集{milk,cake},是I子集.2012/11/6数据仓库与数据挖掘74.2引例定义4.3项集的支持度对于项集X,XI,设定count(XT)为交易集D中包含X的交易的数量count(XT)support(X)
8、D
9、项集X的支持度support(X)就是项集X出现的
10、概率,从而描述了X的重要性。2012/11/6数据仓库与数据挖掘84.2引例定义4.4项集的最小支持度与频繁集发现关联规则要求项集必须满足的最小支持阈值,称为项集的最小支持度(MinimumSupport),记为supmin。从统计意义上讲,它表示用户关心的关联规则必须满足的最低重要性。只有满足最小支持度的项集才能产生关联规则。支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之则称为非频繁集。通常k-项集如果满足supmin,称为k-频繁集,记作Lk。2012/11/6数据仓库与数据挖掘94.2引例定义4.5关联规则关联规则(Association
11、Rule)可以表示为一个蕴含式:R:XY其中XI,YI,并且XY=。项集X在某一交易中出现,则导致项集Y按照某一概率也在同一交易种出现。X为规则条件,Y为规则结果。2012/11/6数据仓库与数据挖掘104.2引例定义4.6关联规则的支持度对于关联规则R:XY,其中XI,YI,并且XY=,规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。count(XY)support(XY)
12、D
13、2012/11/6数据仓库与数据挖掘114.2引例定义4.7关联规