资源描述:
《浅析一种基于前缀节点的频繁子图挖掘算法的论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浅析一种基于前缀节点的频繁子图挖掘算法的论文摘要:基于频繁子树挖掘算法中的前缀节点思想,将模式图分为图核—分支—连接向量三个部分,提出了cbe算法。对在分支上扩展得到的候选模式图,cbe算法能够在常数时间内完成规范化判定。通过实验证明cbe算法的子图挖掘效率有显著提高。 关键词:数据挖掘;频繁子图;同构类;规范化形式;前缀节点 frequentsubgraphsminingalgorithmbasedonprefixnode lihai-bo,p;multimedia,schoolofputersciencetechnology,huazhong
2、universityofsciencetechnology,ethodinfrequenttreeminingalgorithms,adoptingcore-braches-connectingvectorpartitionongraphs,thispaperprovidedanecbe.thecbealgorithmcouldacplishcanonicaldetermininginconstanttimeoncandidatepatterngraphsexpandedfrombranches.performancetestingprovesthattheeff
3、iciencyofsubgraphsminingisimprovedbycbealgorithm. keyining;frequentsubgraph;isomorphismclass;canonicalform;prefixnode 在化学信息学、生物信息学、网络结构分析等领域,频繁子图挖掘算法是一个热点研究问题。.cOm与其他的频繁模式挖掘算法类似,一般的频繁子图挖掘算法都分为候选模式生成和模式频繁判定两步[1]。在频繁子图的挖掘过程中,会生成大量的候选模式图。对每一个新产生的候选模式图,在进行频繁判定之前,都要首先判断它与前面产生的模式图是否同构。而图的
4、同构判定是一个复杂度介于p与np之间的问题[2~5]。受此限制,目前出现的子图挖掘算法的效率还不是很高,特别是与频繁子树挖掘算法相比。频繁子树的挖掘也会生成大量的候选模式树,但基于一种称为前缀节点的方法,可以在常数时间内解决候选模式树的同构判定问题。 本文针对这种情况,基于频繁子树挖掘算法中的前缀节点思想,提出了一种在部分候选模式图上能够在常数时间内完成同构判定的方法,并以此方法为核心给出了一种新的高效频繁子图挖掘算法——图核—分支扩展算法(cbe)。 1基于次前缀节点的频繁子树挖掘算法 频繁子树挖掘算法分为候选模式子树生成和子树频繁判定两步。候选模式子树可
5、以通过在一棵频繁子树的任一个节点上扩展任一条边得到,但这种扩展会产生大量同构的模式子树。一种朴素的筛选方法是检查新生成的模式子树是否与先前生成的某棵模式子树同构。若存在同构的模式子树,则当前扩展是无效的;否则当前扩展生成一棵新的有效的模式子树。因此,候选子树的生成,本质是要遍历所有的子树同构类。对每一类同构的子树,只需生成一棵代表子树即可。这棵代表子树也成为该同构类的规范形式。同构类的规范形式有多种不同的定义方法,在子树挖掘算法中,通常的做法是[6]: 在一棵树t中,用深度元组t=(d,le,lv)表示一条边e。其中:d为e的终点v的深度;le为e的标记;
6、lv为v的标记。在深度元组间可定义偏序<t:当且仅当d1>d2,或d1=d2且le1在一棵最小有序树的最右路径上扩展,有以下结论,当且仅当:a)最低深度元组t0存在,新增的深度元组t′≥tt0,且t′≥tt″(t″为t′在最右路径上的左兄弟元组);b)或t0不存在,且t′≥tt″,则扩展得到的必定是一棵最小有序树[6,7]。简单证明如下:对于最右路径上的前缀节点,由深到浅记为vi,vi-1,…,v0,所对应的次前缀深度元组为ti,ti-1,…,t0。由次前缀深度元组的定义易得t0≥tt1≥t…≥tti。
7、若添加的深度元组t′≥tt0,则新的有序树中,subtree(vk)≥ssubtree(presibling(vk))(k=1,…,i)。对最右路径上的非前缀节点v,始终有subtree(vk)>ssubtree(presibling(vk))。因此,扩展得到的是一棵最小有序树。若添加的深度元组t′<tt0,则新的有序树中,subtree(v0)和subtree(presibling(v0))交换后,可得到更小的有序树。因此扩展得到的不是一棵最小有序树。例如图1中,扩展边(v0,v10),(v6,v12)满足条件a)b),为
8、有效扩展;