资源描述:
《基于带索引的位图挖掘连续序列的频繁模式》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于带索引的位图挖掘连续序列的频繁模式目录基于带索引的位图挖掘频繁连续序列11.概念11.1频繁模式11.2关联规则、支持度和置信度11.3序列21.3.1单元序列21.3.2多元序列21.4连续子序列21.5连续序列融合规则22.基于带索引的位图挖掘频繁连续序列32.1IBM数据结构32.1.1IBM位图32.1.2SV向量42.1.3Index索引42.1.4NB表42.1.5范例42.2IBM算法流程52.2.1创建内存数据结构对象52.2.2挖掘频繁连续序列62.3范例62.3.1创建内存结构对象62.3.2挖掘频繁连续序列82.
2、3.4频繁连续序列结果123参考131.概念1.1频繁模式正如名称所说,频繁模式(frequentpattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合,如小卖部中被许多顾客频繁地一起购买的牛奶和面包。频繁出现的子序列,如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡这样的模式就是一个频繁序列模式。子结构可能涉及不同的结构形式(例如:图、树和格),可以与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它
3、为频繁结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关性。1.2关联规则、支持度和置信度频繁项集挖掘的一个典型例子是购物篮分析,该过程通过发现顾客放入他们“购物篮”中的商品之间的关联,分析顾客的购物习惯。如果我们想象全域是商店中商品的集合,则每种商品有一个布尔变量,表示该商品是否出现。每个购物篮可用一个布尔向量表示。可以分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。这些模式可以用关联规则(associationrule)的形式表示。例如,购买计算机也趋向于同时购买杀毒软件,可以用以下关联规则(6.1)表示:computer=
4、>antivirus_software[support=2%;confidence=60%](6.1)规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量,它们分别反映所发现规则的有用性和确定性。关联规则(6.1)中支持度support=2%,意味着所有事务中的2%显示计算机和杀毒软件被同时购买。置信度confidence=60%意味着购买计算机的顾客中又有60%同时购买了杀毒软件。关联规则是形如A=>B的蕴含式。support(A=>B)=P(AUB),confidence(A=>B)=P(B
5、A)1.3
6、序列1.3.1单元序列形如的序列,注意其中任意一个元素Sk都只有一个子项。1.3.2多元序列形如,其中任意一个元素Sk本身内部又包含多个子项。规定S1,S2……称为序列的元素(element),把a1,a2,……,b1,b2……,c1,……ct等称为序列元素的子项(item)1.4连续子序列给定一个序列S=,再给定另外一个序列C,
7、当C满足以下三个条件中任意一个时,称C是S的连续子序列。【1】删除S的首元素S1后等于c,即c=,【2】删除S的尾元素Sn后等于c,即c=,【1】删除S的任意元素Si的任一个子项ak后等于c,即c=,【2】C是D的连续子序列,同时D又是S的连续子序列。定义当C满足以上任意一个条件时,则称C是S的连续子序列。举例说明:假定S=<(1,2),(3,4),(5),(6)>时:序列<(2),(3,
8、4),(5)>,<(1,2),(3),(5),(6)>,<(3),(5)>都是S的连续子序列,但是<(1,2),(3,4),(6)>,<(1),(5),(6)>都不是S的连续子序列。分析:<(1,2),(3,4),(6)>是S删除中间一个元素(5)得到的,这不符合定义。1.5连续序列融合规则已经两个长度为k的连续序列S1和S2,他们融合成长度为k+1的连续序列的条件如下:【1】S1删除第一个元素后的序列为S1’,或者S1删除第一个元素的第一个子项后得到的序列S1’【2】S2删除最后一个元素后的序列S2’,或者S2删除最后一个元素的最后一个
9、子项后得到的序列S2’。【3】当S1’=S2’时,S1和S2可以融合。【4】融合方法分两种情况:【4.1】当S2删除最后一个元素后的序列S2’时,只需要把S2的最后一个元素加入S1尾部,成为新