数据挖掘——第三章关联规则挖掘课件.ppt

数据挖掘——第三章关联规则挖掘课件.ppt

ID:57296478

大小:877.50 KB

页数:72页

时间:2020-08-10

数据挖掘——第三章关联规则挖掘课件.ppt_第1页
数据挖掘——第三章关联规则挖掘课件.ppt_第2页
数据挖掘——第三章关联规则挖掘课件.ppt_第3页
数据挖掘——第三章关联规则挖掘课件.ppt_第4页
数据挖掘——第三章关联规则挖掘课件.ppt_第5页
资源描述:

《数据挖掘——第三章关联规则挖掘课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联规则挖掘技术挖掘频繁模式、关联和相关1.1.1购物篮分析:引发性例子1.1.2频繁项集、闭项集和关联规则1.1.3频繁模式挖掘:路线图1.1基本概念和线路图1.1.1购物篮分析:引发性例子频繁项集挖掘的一个典型例子是购物篮分析。优点:通过分析顾客的购买习惯,就能帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。例如:如果顾客在超市购物时购买了牛奶,他们有多大的可能同时购买面包?什么是项?什么是事务?比如说在超市中的每一件商品在我们这里可以看作一个项!每个顾客消费时的购物单可以看作是一个事务!例如:如果顾客购买电脑

2、的同时也倾向于购买杀毒软件,可以将两种产品放在一起销售!通过上面的例子我们来分析和了解下面的两个概念:最小支持度阀值和最小置信度阀值:是由用户或专家来设定的,也就是由他们来定义支持度与置信度的下限值。Confidence:置信度。置信度为60%意味着购买计算机的顾客60%也购买了杀毒软件。support:支持度。支持度为2%意味着所分析的所有事务的2%同时购买计算机和杀毒软件。Computerantivirus_software[support=2%,confidence=60%]什么是支持度?什么是置信度?1.1.2频繁项集、闭项集和关联规

3、则1.频繁项集:这些项集的每一个出现的频率性至少与预定义的最小支持计数min_sup一样。2.闭频繁项集:如果不存在真超项集(数学中真子集相同)Y,使得Y与X在S中有相同的支持度计数,则称项集X在数据集S中是闭的。如果X在S中是闭的和频繁的,项集X是数据集S中的闭频繁项集。3.关联规则:Computerantivirus_software[support=2%,confidence=60%]可以改写如下所示的关联规则:buys(X,”computer”)buys(X,”antivirus_software”)例5-2:闭的和极大的频繁项集。闭

4、频繁项集的集合包含了频繁项集的完整信息。例如,我们可以从C推出(1){a2,a45:2}因为{a2,a45}是{a1,a2,…,a50:2}的子集。(2){a8,a55:1}因为{a8,a55}不是{a1,a2,…,a50:2}的子集,而是{a1,a2,…,a100:1}的子集。然而,从最大频繁项集我们只能断言两个项集({a2,a45}和{a8,a55})是频繁的。最小支持度计数阀值min_sup=1。我们发现两个闭频繁项集和他们的支持度,即C={{a1,a2,…,a100}:1;{a1,a2,…,a50}:2}只有一个极大频繁项集:M={{

5、a1,a2,…,a100}:1}假定事务数据库只有两个事务:{a1,a2,…,a100};{a1,a2,…,a50}1.1.3频繁模式挖掘:路线图频繁模式挖掘有多种分类方法:6.根据所挖掘的模式类型分类;5.根据所挖掘的规则类型分类;4.根据规则中所处理的值类型分类;3.根据规则中涉及的数据维数分类;2.根据规则集所涉及的抽象层分类;1.根据挖掘模式的完全性分类;1.2有效的和可伸缩的频繁项集挖掘方法5.2.1Apriori算法:使用侯选产生发现频繁项集;5.2.2由频繁项集产生关联规则;5.2.3提高Apriori算法的效率;5.2.4不侯

6、选产生挖掘频繁项集;5.2.5使用垂直数据格式挖掘频繁项集;1.2.1Apriori算法:使用侯选产生发现频繁项集1.Apriori性质:频繁项集的所有非空子集也必须是频繁的。2.该算法的使用是通过下面的两个步骤来完成的:连接步和剪枝步。怎样来理解和掌握Apriori算法呢?我们可以通过下面的例子来理解和掌握:例5-3该例子是基于下表的AllElectronics的事务数据库D,数据库中有9个事务,即

7、D

8、=9。TID商品ID的列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I

9、2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3表5-1AllElectronics某分店的是事务数据项集支持度计数{I1}6{I2}7{I3}6{I4}2{I5}2扫描D对每个侯选计数项集支持度计数{I1}6{I2}7{I3}6{I4}2{I5}2C1L1比较侯选支持度计数与最小支持度计数有L1产生侯选C2项集{I1,I2}{I1,I3}{I1,I4}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I3,I4}{I3,I5}{I4,I5}C2C2项集支持度计数{I1,I2}4{I1,I3}4{I1,

10、I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I4}0{I3,I5}1{I4,I5}0扫描D,对每个侯选计数项集支持度计数{I1,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。