序列模式第4讲ppt课件.ppt

序列模式第4讲ppt课件.ppt

ID:59471362

大小:216.00 KB

页数:41页

时间:2020-09-14

序列模式第4讲ppt课件.ppt_第1页
序列模式第4讲ppt课件.ppt_第2页
序列模式第4讲ppt课件.ppt_第3页
序列模式第4讲ppt课件.ppt_第4页
序列模式第4讲ppt课件.ppt_第5页
资源描述:

《序列模式第4讲ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联规则Miningvariouskindsofassociationrules本讲内容MiningVariousKindsofAssociationRulesMiningmulti-levelassociationMimingmulti-dimensionalassociationMiningquantitativeassociationMininginterestingcorrelationpatternsMulti-levelARmining在多维空间中,由于数据通常比较稀疏,很难在较低概念层发现有用的关联规则,数据项之间的关系通常出现在相对高的层中

2、.如:IBMComputer和HPPrinter之间可能找不出什么关联,但Computer和Printer之间却有关联但是,对某一个用户具有含义的规则对另一用户可能并没有什么用,所以数据挖掘应该给用户提供可以在多个抽象层挖掘的能力并能在多维空间中漫游。多层挖掘算法自顶向下,逐层挖掘使用统一的minisupp优点:简单缺点:如果minisupp过大,低层会丢失很多规则如果minisupp过小,高层会产生很多无用规则使用不同的minisupp使用不同的minisupp,方法1Levelbylevel:每一层独立地进行挖掘例如:如果“ComputerFurnit

3、ure”不频繁,则大多数情况下用不着再考察“ComputerChair”。缺点:效率低,不利用背景知识,要考察很多不可能频繁的项目使用不同的minisupp,方法2Level-crossFilteringbyk-itemset:如果父结点是频繁的k-itemset,则进一步考察孩子结点是否是频繁的k-itemset,否则修剪掉P249图缺点:丢掉了一些有用的规则使用不同的minisupp,方法3Level-crossFilteringbysingleitem:如果父结点是频繁项目,则进一步考察孩子结点,否则修剪掉缺点:由于minisupp不同,父结点不频繁

4、,子节点有可能频繁,可能丢掉规则使用不同的minisupp,方法4改进Level-crossFilteringbysingleitem:增加一个“levelpassagethreshold”,如果父结点不频繁,但满足passingdown条件,则需要进一步考察子结点。“levelpassagethreshold”:一般设置为当前层的minisupp和下一层的minisupp之间的一个值。去掉冗余的多层规则例如:DesktopComputer→b/wprinter(support=0.08,confidence=0.7)IBMDesktopComputer→

5、b/wprinter(support=0.02,confidence=0.72)(冗余)如果一条规则的支持度和可信度接近于它的预期值,则说它是冗余的。预期值是由它的祖先规则和子项目在父项目中所占的比例决定的。例如:上例中IBMDesktopComputer占DesktopComputer比例为0.25的话,则“预期”支持度为0.02.MiningMulti-DimensionalAssociationSingle-dimensionalrules:buys(X,“milk”)buys(X,“bread”)Multi-dimensionalrules:2

6、dimensionsorpredicatesInter-dimensionassoc.rules(norepeatedpredicates)age(X,”19-25”)occupation(X,“student”)buys(X,“coke”)hybrid-dimensionassoc.rules(repeatedpredicates)age(X,”19-25”)buys(X,“popcorn”)buys(X,“coke”)CategoricalAttributes:finitenumberofpossiblevalues,noorderingamo

7、ngvalues—datacubeapproachQuantitativeAttributes:numeric,implicitorderingamongvalues—discretization,clustering,andgradientapproachesMiningQuantitativeAssociations按照对待数值属性的不同方法,分为:静态方法:数值属性根据预先定义好的概念层次被离散化。离散化发生在挖掘之前.静态例如:收入被离散化为“0-20k”,“21-30k”,等等动态方法:数值属性根据数据的分布被离散到多个“bins”中。这些“bi

8、ns”在数据挖掘的过程中可以进一步结合起来。动态基于距离的AR:数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。