欢迎来到天天文库
浏览记录
ID:27666105
大小:70.17 KB
页数:10页
时间:2018-12-05
《几种图匹配的核方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、几种图匹配的核方法研究摘要:数据挖掘算法现面临挑战,这个挑战就是要处理日益增长的复杂对象。对于图数据,随机游走核是有力的容错图匹配方法。由于随机游走核的局部定义,它的适用性取决于潜在图表示的特性。另外通过定义图实例的核函数,数据挖掘算法的整个工具变得可用。迄今为止,已经提出了基于图的游走、子树和循环的图核。一般问题在于,这些核要么运算量大要么受限于他们的表达性。我们试着通过定义基于路径有表迗性的图核克服这个问题。由于计算图的所有路径和最长路径是NP-难,我们建议基于最短路径图核。这些核在多项式时间
2、内就可以计算,保持表现力并且仍然是正定的。关键词:NP-难;图核;核方法;随机游走核;最短路径核;正定中图分类号:TP391.4文献标识码:A文章编号:1009-3044(2013)07-1622—041概述核方法是统计学习理论[18]的流行方法,它在数据挖掘上有多种应用。核可以完成比如分类这样的任务,这些任务以非线性假设和很种不同数据类型的支撑向量机、回归[5]、聚类[1]和主成分分析[19]来完成。核方法的早期研究几乎都只处理基于向量描述的输入数据。Haussler[10]第一个定义了在结构对
3、象上用原则性方法设计核,也就是所谓的R-卷积核。卷积核的基本想法是定义复合对象子结构正定核并使用在卷积下正定函数是关闭的属性来组合这些核,成为一个复合对象自身的核函数。因此,卷积核推断出复杂对象相似性来源于他们部件的相似性。将一个串拆分成两个子串,例如,可以认为是一个串的分解。对于串匹配,很多核函数提出来,大部分核函数属于卷积核类。基本理念是将串映射到用串索引坐标的特征空近年来,结构对象、图[14]中节点和图的核都已经定义了,结构对象比如字符串、树、传感器、动力系统。一般说来,图核是基于经由核的图
4、子结构的比较。为了这个目的已经考虑游走[13]、子树[17]和循环模式[11]。然而,这些子结构的核要么运算量大,有时甚至是NP-难,要么局限于它们的表现力。现存核方法的不足是因为图核设计时的竞争需求:第一,核应该是图相似性的优良准则;第二,它的运算应可能在多项式时间内;第三,核必须是正定的;第四,理想情况下它不仅仅只对图的一小部分子集适用,对所有图都应适用。现存图核对这四个目的至少有一个迗不到。这篇文章我们介绍了一类图核,它是基于图最短路径来评价相似性,它在多项式时间内也可以计算出,是正定的并且
5、适用于广泛的2现有图核在我们回顾现存图核之前,为了方便论证,我们先规定论中的基本定义。2.1初级图论[G]由节点(或定点)集[V]和边[E]组成。在本文中,[n]表示图的节点数,[m]表示图的边数。属性图是节点和/或边带有标签的图;标签指的是属性。在例子中,属性由形如(属性-名称,值)的对构成。[G]的邻接矩阵[A]定义如下:这里[vi]和[vj]是[G]的节点。图上长度为[k-1]的步子[w]是节点[vl,v2,...,vk]的一个序列,[vi-1,vieE任何解决所有最短路径对问题的算法可以用
6、来确定[S]中所有最短距离的边标签。我们建议用弗洛伊德的算法。这个算法运行时间为[On3],它也适用于有负边权值的,但是多数不包含负的权值环。此外,执行起来也很简单。下面将提到经弗洛伊德算法将图[I]转换到[S]的过程,称为弗洛伊德转换。3.2最短路径核继我们输入图的弗洛伊德转换,我们现在可以定义一个最短路径核。定义1(最短路径图核)[G1]和[G2]是两个图,经弗洛伊德转换为[S1]和[S1]。接着定义最短路径图核[S1=V1,E1]和[S2=V2,E2]为下面我们证明最短路径核的有效性。引理1
7、最短路径图核是正定的。弗洛伊德-沃尔什(n节点的图G和邻接矩阵A)证明:最短路径核是运行在弗洛伊德转换图的简单游走核,弗洛伊德转换图只考虑了长度为1的游走。首先,我们选择一个节点的正定核和边的正定核。接着我们定义长度为1的游走对[klwalk],顺着游走碰到的节点和边的核结果。作为一个节点和边核的张量结果,[klwalk]是正定的。接着我们0-扩展[klwalk]到游走的整个节点对,将长度[类]1的所有游走核值设为0。这个0-扩展维持正定性。最短路径核的正定性直接就像卷积核[10]—样,从它的定义
8、证明正定运行时间复杂度最短路径核避免了动摇,但是如何与已知的随机游走核(测量部分相似性)进行运行时间复杂度的比较仍旧是个有趣的问题。不失其广义,我们假设要处理两个各有[n]个节点和[m]条边的图。为了计算游走核,我们首先要确定直积图,直积的节点数明显上限到[n2]。我们接着要转化这个直积图的邻接矩阵;[x?x]矩阵的逆的标准算法要求[0x3]时间。我们的例子中[x
此文档下载收益归作者所有