欢迎来到天天文库
浏览记录
ID:50580143
大小:895.50 KB
页数:25页
时间:2020-03-14
《文本摘要&关键词提取.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、TowardsanIterativeReinforcementApproachforSimultaneousDocumentSummarizationandKeywordExtractionAuthorXiaojunWanJianwuYangJianguoXiao文本摘要&关键词提取文本摘要:根据给定的文本生成摘要分类:问题相关/问题无关单文档/多文档摘要…关键词提取:从指定的文本中提取关键词,要求关键词能够反映原文信息分类:问题相关/问题无关单文档/多文档摘要…文本摘要&关键词提取相同点:二者的目标都是从原文中提取简练的,有代表性的信息。不同之处:抽取
2、信息的单位不一样: 句子/词文本摘要需要对摘要结果重组织Question:能不能同时完成文本摘要和关键词提取?两个任务有没有互补性?Graph-basedrankingalgorithm被成功地运用在文本摘要和关键词提取TextRankLexPageRank原理∶根据全局信息(图的结构)而不是局部信息来对节点排序PopularGraph-basedrankingalgorithmHITSPositionalFunctionGooglePageRankGooglePageRank原理:1.一个网页被其它网页链接的次数越多,则该网页越重要2.链接一个网页的网
3、页越重要,则该网页越重要PR(A)=(1-d)+d(PR(t1)/C(t1)+...+PR(tn)/C(tn))p=c*ETpGooglePageRank给定邻接矩阵E,记λ1≥
4、λ2
5、≥…,q1是属于λ1的特征向量初始化向量p0,使得
6、p0
7、=1对于k=1,2,…,执行如下步骤x=ETpk-1,基本迭代pk=x/
8、
9、x
10、
11、,规格化步骤可以证明(收敛速度)
12、pk–q1
13、=O(
14、λ2/λ1
15、k)(我们注意到头两个特征值的差别直接影响收敛速度,越大越快)自然语言处理中图排序算法的运用一个通用的算法:1.确定完成任务所需要的“文本单元”(如句子,单个的词,短语
16、等),将这些单元作为图中的顶点。2.确定顶点之间的“关系”。如顶点之间存在某种关系,则在这两个点之间连一条边。边可为有向/无向,带权重/不带权重3.运用图排序算法进行运算,直到结果收敛于给定阈值4.根据计算出的得分对“文本单元”排序,选取高得分的组成结果。句子-句子关系图词-词关系图Assumption1一个句子很重要,那么与该句子有紧密联系的句子也很重要;一个词很重要,那么与该词紧密联系的词也很重要Assumption2一个句子中重要词的出现的越多,则该句子越重要,一个词在重要的句子中出现次数越多,则该词越重要三种关系SS-Relationshipww
17、-Relationshipsw-RelationshipBuildSentencetoSentenceGraph句子之间的关系——句子相似度如果两个句子之间的相似度大于0,那么在这代表这两个句子的点之间连一条带权重的无向边,把相似度作为权重句子相似度计算是句子的termvector为term的权重,为的倒排句子频率这样我们得到句子-句子图的矩阵表示然后将该矩阵正则化BuildWordtoWordGraph词之间的关系——词相似度如果两个词之间的相似度大于0,那么在这代表这两个词之间的点之间连一条带权重的无向边,把相似度作为权重词相似度计算:两种方法基于知
18、识库基于语料基于知识库的词相似度计算利用SemanticNetworks(语义网)中的信息计算相似度WordNetalargelexicaldatabaseofEnglishNouns,verbs,adjectivesandadverbsaregroupedintosetsofcognitivesynonyms(synsets),eachexpressingadistinctconcept.Eachsynsethasaglossthatdefinestheconceptthatitrepresents.利用网状结构信息(如点之间的距离,点的稀疏程度)来计
19、算相似度基于语料库的词相似度计算利用互信息在语料中出现的概率在语料中出现的概率二者共同出现的概率(二者间隔的距离不超过一个给定值即认为共同出现)这样我们得到句子-句子图的矩阵表示其中然后将该矩阵正则化BuildSentencetoWordGraph句子与词之间的关系不是“同源”的关系,因此不能用相似度来计算如果一个词在某个句子中出现,则我们认为它们之间存在关系这样我们得到句子-词图的矩阵表示其中然后将该矩阵正则化ReinforcementAlgorithm我们用列向量u=[u(si)]mX1和v=[v(tj)]nX1分别表示句子和词的得分根据前面两个as
20、sumptions,matrixform:总结:图排序算法可以很好地被运用在文本
此文档下载收益归作者所有