资源描述:
《相异关系模式挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、相异关系模式挖掘算法摘要:随着数据挖掘技术的飞速发展,序列模式挖掘已经得到了广泛的应用,国内外很多学者也对序列间的关联规则和负关联规则进行了普遍的研究。 关键词:序列模式挖掘负关联规则相异关系模式 :TP312:A:1007-9416(2010)08-0162-02 1引言 序列模式挖掘(SequentialPatternMining)是一种非常重要的数据挖掘(DataMining)技术,它在许多基于事件的或与序列相关的领域中有重要的应用。关联规则(AssociationRule)是序列模式挖掘研究的主要领域之一,其任务是
2、发现大量数据中项集之间有趣的联系。Agrailar(α,β)= 定义3.多分支相异的定义:首先我们通过多成员间的两两相异来推广多分支相异,得出拟相异序列后再计算相异度。如在序列α1α2…αn中,若有αi,αj(1≤iC2==>L2==>C3==>L3==>C4==>L4==>…… 产生候选分支模式的步骤: (1)连接阶段:如果去掉k分支模式S1的第一个项目与去掉k分支模式S2的最后一个项目所得到的序列相同,则可以将S1和S2进行连接,即将S2的最后一个项目添加到S1中。 (2)剪切阶段:若某候选分支模式的某个子序列不是互斥模式
3、,删除该候选分支模式。 例:种子序列与连接可产生候选4-分支序列;与种子序列连接可生成。在剪枝步中,候选4-分支序列被剪去(表1)。 算法RdisRP 输入:客户序列数据库CSDB,用户给定最小支持度minsup及最小相异度mindis 输出:相异关系模式全集DRPs 方法:1.在CSDB基础上,给定的最小支持度minsup下求序列模式全集SP={sp1,sp2,…,spn} 2.求每条客户序列所支持的序列模式全集SuppSPij 3.L1={sp1,sp2,…,spn}//初始种子集 4.For(k=2;Lk≠0;k
4、++)dobegin {Ck=Candidate(Lk-1)//Ck是从Lk-1中产生的新的候选项 SelectCkfromSuppSP {If(exc(Ck)≥minexc)//Lk为Ck中满足最小相异度的k分支相异模式 Lk+=Ck;}};End 5.ERP=∪kLk//得出相异关系模式全集 候选集生成算法Ck=Candidate(Lk-1)如下: 输入:LK-1分支相异模式集 输出:候选序列集Ck (1)连接阶段: InsertintoCk {For(1≤m(3)(4)(5) 首先,进行序列模式挖掘,令最
5、小支持度minsup=40%,得到序列模式集SP。 接着,进行相异序列模式的挖掘,由于本次挖掘的客户序列数据库的客户序列总数为5,所以这里我们分别挖掘最小相异度为mindis=55%,mindis=75%和mindis=95%时的相异序列模式。下图1表示相异关系模式的挖掘结果。 相异关系模式的各分支模式数都是随着最小相异度的增加呈先增加后减少的趋势,并且分支数随着最小相异度的增加而减少。另外,总模式的个数随着最小相异度的增加而减少。此实验验证了本文所述的相异关系模式基本理论的有效性和可行性。 6结语 本文主要描述了基于序列
6、间相对关系的相异关系模式挖掘,这是在序列模式挖掘基础上的进一步理论研究。主要介绍了相异关系模式的定义、性质、相关的挖掘算法和实验验证,实验结果准确、可靠。这些工作都为进一步的序列模式挖掘的研究奠定了基础。