欢迎来到天天文库
浏览记录
ID:52480581
大小:213.74 KB
页数:27页
时间:2020-04-08
《上课用课件:数据挖掘sas(关联规则).ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据库中的关联规则挖掘什么是关联规则挖掘?关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售等“尿布与啤酒”——典型关联分析案例采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。购物
2、篮分析在商店中所有商品的集合中,对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示关联规则:问题描述为了简洁的表示商品销售的关联规则,我们用以下图示表示:{左边商品集合}→{右边商品集合}左边商品集合又称为LeftHandSet,简称LHS,类似的,右边商品集合又称为RightHandSet,简称RHS。例如:?{尿布}→{啤酒}?{啤酒、尿布}→{奶酪、巧克力}关联规则:评判规则的标准支持度支持度(Support)指的
3、是LHS和RHS所包括的商品都同时出现的概率。即,包含规则LHS和RHS商品的交易次数/总的交易次数。置信度可信度(Confidence)是指在所有的购买了左边商品的交易中,同时又购买了右边商品的交易机率。即,包含规则两边商品的交易次数/包含规则左边商品的交易次数。关联规则:评判规则的标准提升度提升度指的是是两种可能性的比较,一种是在已知购买了左边商品情况下购买右边商品的可能性,另一种是任意情况下购买右边商品的可能性。两种可能性比较方式可以定义为两种可能性的概率之差值,或者两种可能性的概率之比值。在SAS软件中定义的提升度为两种可能性的概率之比值。即规
4、则的可信度/包含规则右边商品的交易次数占总交易量的比例。关联规则:评判规则的标准例:假设数据库中销售商品的交易次数为1000次,在这些交易中购买尿布的交易量为200次,购买啤酒的交易量为50次,同时购买尿布和啤酒的交易量为20次。那么规则:{尿布}→{啤酒}的提升度是多少?(1)包含啤酒的交易次数占总交易次数的比例=50/1000=5%,(2){尿布}→{啤酒}的信任度=20/200=10%,(3)提升度=10%/5%=2。(4)总结:提升度高于1意味着当顾客购买了尿布,他们有较高的可能性去购买啤酒。如果提升度小于1意味着啤酒本身就是一个畅销产品,并不
5、是因为尿布的销售促进了其销售量。SAS中关联规则应用举例:(1)问题分析:银行提供的服务如下,现在根据客户数据分析客户组合消费的情况。数据集有7991个观测值,有3个变量模型角色:测量水平:SAS中关联规则应用举例:(2)在EM中建立项目和流程图(3)添加节点(4)打开和修改输入数据源SAS中关联规则应用举例:(5)打开和修改ASSOCIATE节点:注意几个参数的设置SAS中关联规则应用举例:(6)运行ASS节点注意:理解SUPPORTCONFIDENCELIFT排序设置查看置信度》预期置信度生成子表集SAS中序列关联分析例如:客户上周购买了A商品
6、,下周是否会买B商品?序列关联分析要设置序列变量理解:支持度、置信度生成AUTO的子集关联规则挖掘算法(1)基本概念k-项集:包含k个项的集合{牛奶,面包,黄油}是个3-项集项集的频率是指包含项集的事务数如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集关联规则挖掘算法(2)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集大部分的计算都集中在这一步由频繁项集产生强关联规则即满足最小支持度和最小置信度的规则关联规则挖掘算法(3)最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。交易号项集最小支持度50%最小置信度50%对
7、规则AC,其支持度=50%置信度Apriori算法(1)Apriori算法是挖掘布尔关联规则频繁项集的算法Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。模式不可能比A更频繁的出现Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率Apriori算法(2)Apriori算法利用频繁项集性质的先验知识(priorknowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中
8、的所有频繁项集。先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L
此文档下载收益归作者所有