数据挖掘方法——关联规则(自己整理).ppt

数据挖掘方法——关联规则(自己整理).ppt

ID:59502084

大小:1.09 MB

页数:12页

时间:2020-09-11

数据挖掘方法——关联规则(自己整理).ppt_第1页
数据挖掘方法——关联规则(自己整理).ppt_第2页
数据挖掘方法——关联规则(自己整理).ppt_第3页
数据挖掘方法——关联规则(自己整理).ppt_第4页
数据挖掘方法——关联规则(自己整理).ppt_第5页
资源描述:

《数据挖掘方法——关联规则(自己整理).ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一、关联规则概念二、关联规则应用领域三、关联规则挖掘的过程四、关联规则的分类五、关联规则挖掘的相关算法六、关联规则的优缺点一、关联规则概念关联分析(Associationanalysis):就是从给定的数据集发现频繁出现的项集模式知识(又称为关联规则,associationrules)。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的:找出数据库中隐藏的关联网。一般用Support(支持度)和Confidence(可信度)两个阀值来度量关联规则的相关性,引入lift(提高度或兴趣度

2、)、相关性等参数,使得所挖掘的规则更符合需求。一、关联规则概念规则就是一个条件和一个结果的和:Ifconditionthenresult。1.Support(支持度):是一个元组在整个数据库中出现的概率。Support=P(conditionandresult)。(1)如:ifAthenB。则它的支持度Support=P(AandB)2.Confidence(可信度):它是针对规则而言的。Confidence=p(conditionandresult)/p(condition)。(2)如:IfBandCthenA。则它的可信度Confidence=p(BandCandA)/p(BandC)。

3、把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称为项集(itemset),包含K个项集称为K-项集,如果项集满足最小支持度,则称它为频繁项集。3.Lift(提高率或兴趣度):使得所挖掘的规则更符合需求。Lift=p(conditionandresult)/(p(condition)*p(result))。(3)当Lift大于1的时候,这条规则就是比较好的;当Lift小于1的时候,这条规则就是没有很大意义的。Lift越大,规则的实际意义就越好。二、关联规则应用领域目前,关联技术的主要应用领域是商业,它的主要挖掘对象是事务数据库。利用关联技术从交易数据库发现规则的过程称为购物篮分

4、析(MarketBasketAnalysis)。通过对商业数据库中的海量销售记录进行分析,提取出反映顾客购物习惯和偏好的有用规则(或知识),可以决定商品的降价、摆放以及设计优惠券等。当然也可以把得到的信息应用到促销和广告中,例如,关联规则中所有后项为“DietCoke”的规则可能会给商店提供出信息:什么会促使DietCoke大量售出。另外,关联规则也可以服务于Cross-sale。服务业的激烈竞争使得公司留住老顾客和吸引新顾客一样重要。通过分析老顾客的购买记录,了解他们的产品消费偏好,给他们提供其它产品的优惠及服务,这样不但能留住他们还可以使他们逐渐熟悉另外的产品,公司从而以尽快的速度获得利

5、润。Cross-sale就是试图让一种产品的固定购买客户购买另一种产品。但大公司的顾客购买数据库很大,人工分析是很难的,关联规则挖掘技术可以结合专家从大型数据库中发现有用知识,来帮助领域专家做出决策。关联技术不但在商业分析中得到了广泛的应用,在其它领域也得到了应用,包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。三、关联规则挖掘的过程关联规则的挖掘可以发现大量数据中数据项集之间有趣的关联。而核心就是识别或发现所有频繁项目集。关联规则的挖掘是一个两步的过程:1、找出所有频繁项集(FrequentItemsets);2、由频繁项集产生强关联规则(AssociationRules),根

6、据定义,这些规则必须满足最小支持度和最小置信度。关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(MinimumSupport)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequentk-itemset),一般表示为Largek或F

7、requentk。算法并从Largek的项目组中再产生Largek+1,直到无法再找到更长的高频项目组为止。三、关联规则挖掘的过程关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。