资源描述:
《超图(Hypergraph)理论与应用.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、超图(Hypergraph)理论与应用刘未鹏动机(Motivation)什么是共指消解(CoreferenceResolution)共指消解的各种方法图分割(GraphPartitioning)方法简单图分割方法的潜在缺陷引入超图(Hypergraph)的意义超图(Hypergraph)超图的定义超图的分割超图真比简单图优越吗?如何将超图运用到共指消解中什么是共指消解[李明i]怕[高妈妈j]一人呆在家里寂寞,[他i]便将[他自己i]家里的电视搬了过来给[她j]。共指消解的方法规则方法利用句法层面的知识,进行启发式消解。统计方法基于训练语料库,统
2、计出概率分布,然后进行预测。机器学习决策树、朴素贝叶斯、规则学习等等。图方法以节点表示名词短语,以边表示名词短语间的共指关联度。图方法节点表示名词短语边表示短语与短语之间的某种关联(这种关联必须要对“共指”起到贡献,如人称、性别、单复数等属性)边的权值用来表示这种关联对共指起到的贡献的大小简单图一条边只能连接两个顶点超图一条边可以连接多个顶点为什么引入超图(一个例子)简单图版本丢失了“同一作者的多篇文章”这一信息,而超图版本则保存了这一信息。在共指消解里面,也有类似的信息,比如“多个指代的性别(gender)相同”、“多个指代的数量相同”(即同
3、为单数或同为复数)等。顶点代表文章,每条边代表两个顶点(文章)享有同一个作者为什么引入超图(一个例子)假设有三篇文章,v1,v2,v3。它们的作者分别是:v1:A,Bv2:B,Cv3:C,D如果v1:A,Bv2:A,Cv3:A,D简单图的分割目标:使分割出来的两个子图之间的关联最小问题:如何定义“关联最小”?简单图分割的数学表达分割子图间关联最小=跨分割边界的所有边的权值之和最小邻接矩阵(AdjacencyMatrix)A(i,j)=顶点i和顶点j之间的所有边的权值之和MinCut(G+,G-),根据二次型表达式等价于:MaxYYTAY,其中Y
4、i∈{+1,-1};简单图分割的问题问题:导致退化的分割Normalized-Cut仅仅做到跨边界的权值和最小还不够,因为可能存在一些孤立点,它们跟外界的联系本身就极小,于是很可能被独立分割出来。Normalized-Cut解决思想:一个cut是“好的”当且仅当对任意一个子图来说,从子图中的节点出发跨越分割边界的边的权值和相比于从子图节点出发的所有边的权值和的比例越小越好。通俗来说就是:任一分割出来的子图跟外界的联系主要来自该子图内部。Normalized-CutNP-Hard拉普拉斯矩阵(LaplacianMatrix)谱(Spectrum)
5、方法NP-Hard谱方法逼近解minz(ZTLZ/ZTZ)其中Zi∈{r+,r-};r+=√
6、{i:zi<0}
7、/
8、{i:zi>0}
9、r-=√
10、{i:zi>0}
11、/
12、{i:zi<0}
13、不变式:ZTZ=n;ZT1=0;含义:L是拉普拉斯矩阵L=B–A超图理论的目标将简单图的表达泛化为超图表达,将简单图分割算法推广到超图分割之上,并证明超图分割和简单图分割的内在标准(criteria)是一致的超图的表示关键是超边如何表示:用一个点集来表示。令V是一个顶点集合V={v1,v2,v3,v4,v5,v6,v7};则每一条超边都是V的一个子集E={e1,e
14、2,e3,e4}={{v1,v2,v3},{v2,v3},{v3,v5,v6},{v4}}超图的矩阵表达顶点的度d(v)超边的度超图的矩阵表达超图的邻接矩阵其中W是一对角阵,对角线元素为各超边的权值。A是超图的邻接矩阵按右边方法表示的A(超图的邻接矩阵),A(i,i)为0,A(i,j)为vi和vj共享的所有超边的权值和。Dv为一对角阵,对角线元素为各顶点的度d(v)。超图的分割(cut)如何将简单图的分割标准推广到超图上面?理解超图cut的含义将被切割的每一条超边看作一个子图,其中每两个顶点都是两两相连的,连接的权值皆为w(e)/(e的度)。该
15、子图被切割为e∩G+和e∩G-个顶点,因此被切断的边一共有
16、e∩G+
17、
18、e∩G-
19、个。超图的Normalized-Cut超图和简单图的Normailzed-cut是形式一致的超图的Normailzed-Cut随机游走(RandomWalk)超图分割的随机游走解释意义:证明超图分割的确是简单图分割的一个妥善的推广,这对超图分割算法的有效性至关重要。图分割的随机游走解释:一个最优分割须使得随机游走落在同一个子图中的概率最大,同时随机游走跨越分割边界的几率最小。目标:证明超图分割也满足同样的随机游走性质。什么是随机游走(RandomWalk)Goo
20、glePagerank算法GooglePagerank算法基本模型:用一个向量I来代表所有页面的重要性,I的第i个分量Ii就是第i个页面的重要性;另,