欢迎来到天天文库
浏览记录
ID:51743145
大小:273.00 KB
页数:60页
时间:2020-03-30
《数据仓库与数据挖掘基础第6章关联规则(赵志升).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1、关联规则挖掘2、挖掘事务数据库的单维布尔关联规则3、挖掘事务数据库的多层关联规则4、挖掘关系数据库和数据仓库的多维关联规则5、由关联挖掘到相关分析第六章挖掘大型数据库中的关联规则关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。关联规则挖掘的一个典型的例子是购物篮分析。第六章挖掘大型数据库中的关联规则第一节关联规则挖掘顾客1顾客4顾客3顾客2牛奶面包谷类牛奶面包糖鸡旦牛奶面包黄油糖鸡旦市场分析员1、购物篮分析问题:什么商品组或集合顾客多半
2、会在一次购物时同时购买?回答:需要分析商店的顾客事务零售数据,并在其上运行购物篮分析。分析的结果可以用于市场规划、广告策划、分类设计。例如,购物篮分析可以帮助经理设计不同的商店布局,以及规划什么商品降价。第一节关联规则挖掘1、购物篮分析策略一:经常购买的商品可以放近一些,以便进一步刺激这些商品一起销售。策略二:将经常购买的商品放在商店的两端,可能诱发买这些商品的顾客一路挑选其他商品。第一节关联规则挖掘1、购物篮分析可以想象全域是商店中可利用的商品的集合,则每钟商品有一个布尔变量,表示该商品的有无。每个篮子可以用一个布尔向量表示。可以分析布尔向量,得到
3、反映商品频繁关联或同时购买的购买模式。这些模式可以用关联规则的形式表示:第一节关联规则挖掘1、购物篮分析规则的支持度和置信度是两个规则兴趣度度量,反映规则的有用性和确定性,上述规则的支持度2%意味分析中的全部事务的2%同时购买计算机和操作系统软件。置信度60%意味购买计算机的顾客60%也购买操作系统软件。关联规则被认为是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可由用户和领域专家设定。第一节关联规则挖掘2、基本概念设I={i1,i2,…,im}是项的集合,。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得TI。每
4、一个事务有一个标识符TID。设A是一个项集,事务T包含A,当且仅当AT。关联规则是形如AB的蕴涵式,其中AI,BI,且AB=Ø。第一节关联规则挖掘2、基本概念项的集合称为项集,包含K个项的项集称为K-项集。集合{computer,software}是一个2-项集。项集的出现频率是包含项集的事务数简称为频率、支持计数或计数。项集满足最小支持度,若项集的出现频率大于或等于最小支持度与D中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集。第一节关联规则挖掘2、基本概念关联规则的挖掘包含两个基本步骤:找出所有频繁项集:这些项集出现的频繁性至
5、少和预定义的最小支持计数一样。由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。挖掘关联规则的总体性能由第一步决定。第一节关联规则挖掘3、关联规则挖掘的分类标准购物篮分析只是关联规则挖掘的一种形式。根据下列标准,关联规则有多种分类方法:根据规则中所处理的值的类型:若规则考虑项的在与不在,则它是布尔关联规则;若规则描述的是量化的项或属性之间的关联,则它是量化关联规则。如,下列为一个量化关联规则:第一节关联规则挖掘3、关联规则挖掘的分类标准根据规则中涉及的数据维:若关联规则中的项或属性每个只涉及一个维,则它是单维关联规则;若关联规则涉及两
6、个或多个维,则它是多维关联规则。如第一节关联规则挖掘3、关联规则挖掘的分类标准根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则。如,第一节关联规则挖掘购买的商品涉及不同的抽象层,称所挖掘的规则集由多层关联规则组成。否则,规则只涉及单一抽象层的项或属性,则该集合包含单层关联规则。3、关联规则挖掘的分类标准根据关联规则的各种扩充:关联规则可以扩充到相关分析,以识别项是否相关。用最大模式(最大的频繁模式)或频繁闭项集显著压缩挖掘所产生的频繁项集数。第一节关联规则挖掘第二节挖掘事务数据库的单维布尔关联规则1、Apriori算法Apr
7、iori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,通过侯选项集找频繁项集。基本思路:Apriori使用一种称作逐层搜索的迭代方法,K-项集用于探索(K+1)-项集。首先,找出频繁1-项集的集合,记为L1;L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到找到频繁K-项集。找每个LK需要一次数据库扫描。其过程包括:连接和剪枝两个方面。第二节挖掘事务数据库的单维布尔关联规则1、Apriori算法例如,设已有包含9个事务的事务数据库,即
8、D
9、=9,各事务按字典次序存放,设最小事务支持度计数为2。TID项ID的列表T100I1,I2
10、,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T70
此文档下载收益归作者所有