数据挖掘算法培训课件(ppt-34张).ppt

数据挖掘算法培训课件(ppt-34张).ppt

ID:61929964

大小:4.52 MB

页数:35页

时间:2021-03-30

数据挖掘算法培训课件(ppt-34张).ppt_第1页
数据挖掘算法培训课件(ppt-34张).ppt_第2页
数据挖掘算法培训课件(ppt-34张).ppt_第3页
数据挖掘算法培训课件(ppt-34张).ppt_第4页
数据挖掘算法培训课件(ppt-34张).ppt_第5页
资源描述:

《数据挖掘算法培训课件(ppt-34张).ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据BIGDATA3.1数据挖掘概述第三章 数据挖掘算法3.2分类3.3聚类3.1数据挖掘概述3.5预测规模习题3.6数据挖掘算法综合应用3.4关联规则of6523.4关联规则关联规则是数据挖掘中最活跃的研究方法之一,是指搜索业务系统中的所有细节或事务,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得存在于数据库中的不为人知的或不能确定的信息,它侧重于确定数据中不同领域之间的联系,也是在无指导学习系统中挖掘本地模式的最普通形式。More应用市场:市场货篮分析、交叉销售(CrossingSale)、部分分类(PartialClassification)、金融服务(Fi

2、nancialService),以及通信、互联网、电子商务······第三章数据挖掘算法of6533.4关联规则第三章数据挖掘算法一般来说,关联规则挖掘是指从一个大型的数据集(Dataset)发现有趣的关联(Association)或相关关系(Correlation),即从数据集中识别出频繁出现的属性值集(SetsofAttributeValues),也称为频繁项集(FrequentItemsets,频繁集),然后利用这些频繁项集创建描述关联关系的规则的过程。3.4.1关联规则的概念关联规则挖掘问题:发现所有的频繁项集是形成关联规则的基础。通过用户给定的最小支持度,寻找所有支持度大于或等于

3、Minsupport的频繁项集。通过用户给定的最小可信度,在每个最大频繁项集中,寻找可信度不小于Minconfidence的关联规则。发现频繁项集生成关联规则如何迅速高效地发现所有频繁项集,是关联规则挖掘的核心问题,也是衡量关联规则挖掘算法效率的重要标准。of6543.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法格结构(LatticeStructure)常常被用来枚举所有可能的项集。图3-10项集的格of6553.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法格结构(LatticeStructure)常常被用来枚举所有可能的项集。查找频繁项目集经典的查

4、找策略基于精简集的查找策略基于最大频繁项集的查找策略按照挖掘的策略不同经典的挖掘完全频繁项集方法基于广度优先搜索策略的关联规则算法基于深度优先搜索策略的算法Apriori算法、DHP算法FP-Growth算法、ECLAT算法COFI算法与经典查找不同方法基于精简集的方法基于最大频繁项目集的方法A-close算法MAFIA算法、GenMax算法DepthProject算法of6563.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法1.Apriori算法Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法,即从频繁1项集开始,采用频繁k项集搜索频繁k+

5、1项集,直到不能找到包含更多项的频繁项集为止。Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步:生成频繁1项集L1连接步剪枝步生成频繁k项集Lk重复步骤(2)~(4),直到不能产生新的频繁项集的集合为止,算法中止。性能瓶颈Apriori算法是一个多趟搜索算法可能产生庞大的候选项集of6573.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法2.FP-Growth算法频繁模式树增长算法(FrequentPatternTreeGrowth)采用分而治之的基本思想,将数据库中的频繁项集压缩到一棵频繁模式树中,同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树

6、分成一些条件子树,每个条件子树对应一个频繁项,从而获得频繁项集,最后进行关联规则挖掘。FP-Growth算法由以下步骤组成:扫描事务数据库D,生成频繁1项集L1将频繁1项集L1按照支持度递减顺序排序,得到排序后的项集L1构造FP树通过后缀模式与条件FP树产生的频繁模式连接实现模式增长1234图3-11FP树的构造of6583.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法3.辛普森悖论虽然关联规则挖掘可以发现项目之间的有趣关系,在某些情况下,隐藏的变量可能会导致观察到的一对变量之间的联系消失或逆转方向,这种现象就是所谓的辛普森悖论(Simpson’sParadox)。为了

7、避免辛普森悖论的出现,就需要斟酌各个分组的权重,并以一定的系数去消除以分组数据基数差异所造成的影响。同时必须了解清楚情况,是否存在潜在因素,综合考虑。of6593.4关联规则第三章数据挖掘算法3.4.3分类技术分类技术或分类法(Classification)是一种根据输入样本集建立类别模型,并按照类别模型对未知样本类标号进行标记的方法。根据所采用的分类模型不同基于决策树模型的数据分类基于统计模型的数据分类基于神经网络模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。