第4章 数据仓库关联规则

第4章 数据仓库关联规则

ID:34454239

大小:2.85 MB

页数:26页

时间:2019-03-06

第4章 数据仓库关联规则_第1页
第4章 数据仓库关联规则_第2页
第4章 数据仓库关联规则_第3页
第4章 数据仓库关联规则_第4页
第4章 数据仓库关联规则_第5页
资源描述:

《第4章 数据仓库关联规则》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘第4章关联规则2012/11/61什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、loss-leaderanalysis、聚集、分类等。举例:规则形式:“Bodyead[support,confidence]”.buys(x,“diapers”)buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)grade(x,“A”)[1%,75%]2012

2、/11/6数据仓库与数据挖掘2工业控制技术研究所4.1概述一、概述关联规则(AssociationRuleMining)挖掘是数据挖掘中最活跃的研究方法之一。最早是由R.Agrawal等人提出的。其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法:Apriori算法和FP-growth算法2012/11/6数据仓库与数据挖掘3关联规则:基本概念给定:(1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)查找:所有描述一个项目集合与其他项

3、目集合相关性的规则E.g.,98%ofpeoplewhopurchasetiresandautoaccessoriesalsogetautomotiveservicesdone应用*护理用品(商店应该怎样提高护理用品的销售?)家用电器*(其他商品的库存有什么影响?)2012/11/6数据仓库与数据挖掘44.2引例假定某超市销售的商品包括:bread、bear、cake、cream、milk和tea交易号TID顾客购买商品ItemsT1breadcreammilkteaT2breadcreammilkT3cakemilkT4milkteaT5breadcakem

4、ilkT6breadteaT7beermilkteaT8breadteaT9breadcreammilkteaT10breadmilktea2012/11/6数据仓库与数据挖掘54.2引例定义4.1项目与项集设I={i1,i2,…,im}是m个不同项目的集合,每个ik(k=1,2,……,m)称为一个项目(Item)。项目的集合I称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。举例:超市项集:I={bread,beer,cake,cream,milk,tea}2012/11/6数据仓库与数据挖掘6

5、4.2引例定义4.2交易每笔交易T(Transaction)是项集I上的一个子集,即TI,但通常TI。对应每一个交易有一个唯一的标识——交易号,记作TID交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。交易集D中包含交易的个数记为

6、D

7、。举例:交易号为T3,是一个2-项集{milk,cake},是I子集.2012/11/6数据仓库与数据挖掘74.2引例定义4.3项集的支持度对于项集X,XI,设定count(XT)为交易集D中包含X的交易的数量count(XT)support(X)

8、D

9、项集X的支持度support(X)就是项集X出现的

10、概率,从而描述了X的重要性。2012/11/6数据仓库与数据挖掘84.2引例定义4.4项集的最小支持度与频繁集发现关联规则要求项集必须满足的最小支持阈值,称为项集的最小支持度(MinimumSupport),记为supmin。从统计意义上讲,它表示用户关心的关联规则必须满足的最低重要性。只有满足最小支持度的项集才能产生关联规则。支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之则称为非频繁集。通常k-项集如果满足supmin,称为k-频繁集,记作Lk。2012/11/6数据仓库与数据挖掘94.2引例定义4.5关联规则关联规则(Association

11、Rule)可以表示为一个蕴含式:R:XY其中XI,YI,并且XY=。项集X在某一交易中出现,则导致项集Y按照某一概率也在同一交易种出现。X为规则条件,Y为规则结果。2012/11/6数据仓库与数据挖掘104.2引例定义4.6关联规则的支持度对于关联规则R:XY,其中XI,YI,并且XY=,规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。count(XY)support(XY)

12、D

13、2012/11/6数据仓库与数据挖掘114.2引例定义4.7关联规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。