数据挖掘课件(关联分析)

数据挖掘课件(关联分析)

ID:46689658

大小:3.32 MB

页数:93页

时间:2019-11-26

数据挖掘课件(关联分析)_第1页
数据挖掘课件(关联分析)_第2页
数据挖掘课件(关联分析)_第3页
数据挖掘课件(关联分析)_第4页
数据挖掘课件(关联分析)_第5页
资源描述:

《数据挖掘课件(关联分析)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联分析:基本概念和算法第6章关联分析:基本概念和算法定义:关联分析(associationanalysis)关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学数据分析等RulesDiscovered:{Diaper}-->{Beer}定义:频繁项集(FrequentItemset)项集(Itemset)包含0个或多个项的集合例子:{Milk,Bread,Diaper}k-项集如果一个项集包含k个项支持度计数(Supportcount)()包含特定项集的事务个数例如:({Mil

2、k,Bread,Diaper})=2支持度(Support)包含项集的事务数与总事务数的比值例如:s({Milk,Bread,Diaper})=2/5频繁项集(FrequentItemset)满足最小支持度阈值(minsup)的所有项集定义:关联规则(AssociationRule)Example:关联规则关联规则是形如XY的蕴含表达式,其中X和Y是不相交的项集例子: {Milk,Diaper}{Beer}关联规则的强度支持度Support(s)确定项集的频繁程度置信度Confidence(c)确定Y在包含X的事务中出现的频繁程度关联规则挖掘问题关联规则挖掘问题:给定事务的集合T,

3、关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,minsup和minconf是对应的支持度和置信度阈值挖掘关联规则的一种原始方法是:Brute-forceapproach:计算每个可能规则的支持度和置信度这种方法计算代价过高,因为可以从数据集提取的规则的数量达指数级从包含d个项的数据集提取的可能规则的总数R=3d-2d+1+1,如果d等于6,则R=602挖掘关联规则(MiningAssociationRules)大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:频繁项集产生(FrequentItemset

4、Generation)其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。规则的产生(RuleGeneration)其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strongrule)。频繁项集产生(FrequentItemsetGeneration)格结构(latticestructure)频繁项集产生(FrequentItemsetGeneration)Brute-force方法:把格结构中每个项集作为候选项集将每个候选项集和每个事务进行比较,确定每个候选项集的支持度计数。时间复杂度~O(NMw),这种方法的开销可能非常大。降低产生频繁项集

5、计算复杂度的方法减少候选项集的数量(M)先验(apriori)原理减少比较的次数(NM)替代将每个候选项集与每个事务相匹配,可以使用更高级的数据结构,或存储候选项集或压缩数据集,来减少比较次数先验原理(Aprioriprinciple)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的:这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-basedpruning)这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性(an

6、ti-monotone)。非频繁项集例子被剪枝的超集Apriori算法的频繁项集产生Apriori算法的频繁项集产生Items(1-itemsets)Pairs(2-itemsets)Triplets(3-itemsets)支持度阈值=60%最小支持度计数=3枚举所有项集将产生6C1+6C2+6C3=41个候选而使用先验原理,将较少为6+6+1=13Apriori算法Apriori算法Apriori算法的频繁项集产生的部分有两个重要的特点:它是一个逐层算法。即从频繁1-项集到最长的频繁项集,它每次遍历项集格中的一层它使用产生-测试策略来发现频繁项集。在每次迭代,新的候选项集由前一次迭代

7、发现的频繁项集产生,然后对每个候选的支持度进行计数,并与最小支持度阈值进行比较。该算法需要的总迭代次数是kmax+1,其中kmax是频繁项集的最大长度候选的产生与剪枝(构造apriori-gen函数)蛮力方法蛮力方法把所有的k-项集都看作可能的候选,然后使用候选剪枝除去不必要的候选第k层产生的候选项集的数目为虽然候选产生是相当简单的,但是候选剪枝的开销极大,因为必须考察的项集数量太大。设每一个候选项集所需的计算量为O(k),这种方法的总复杂度为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。