基于lle算法聚类句子的文档摘要研究new

基于lle算法聚类句子的文档摘要研究new

ID:34560654

大小:1.77 MB

页数:47页

时间:2019-03-07

基于lle算法聚类句子的文档摘要研究new_第1页
基于lle算法聚类句子的文档摘要研究new_第2页
基于lle算法聚类句子的文档摘要研究new_第3页
基于lle算法聚类句子的文档摘要研究new_第4页
基于lle算法聚类句子的文档摘要研究new_第5页
资源描述:

《基于lle算法聚类句子的文档摘要研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Mutual-reinforcementdocumentsummarizationusingembeddedgraphbasedsentenceclusteringforstorytellingJournal:InformationProcessingandManagement48(2012)767–778Keywords:DocumentsummarizationSentencerankingSpaceembeddingSentenceclusteringStorytelling1Abstract本文提出一种故事型文档(storytelling)摘要框架,通过句子聚类消

2、除冗余,识别公共信息,挖掘故事的潜在主题;通过词-句-类别之间的相互关系,对句子排序打分,辨认重要信息,从而形成文摘。本框架有三个阶段:文档建模,句子聚类以及句子排名。在句子聚类阶段提出一种减少无关句子影响,优化文档模型的方法。2文本摘要的一般步骤:给定文本文摘输出文本内容的文摘的转文本分析选取和泛化换和生成本文研究范围文摘表示3引言1、INTRODUCTION4文档摘要的研究一般有两种策略:基于抽取的方法和基于理解的方法。1、基于抽取(摘录性文摘),一般用在单文档摘要中。2、基于理解(理解型文摘),一般用在多文档摘要中,基于自然语言处理技术,既要避免信息的冗余,又要反

3、映不同信息的差异。根据文摘的应用划分,也有两种划分:普通型摘要,面向用户查询的摘要。1、普通型:根据所给文档,提供原文作者的主要观点。2、面向用户查询:根据用户提交的查询,提供用户感兴趣的内容。5文本提出一种自动文摘框架:首先聚类句子寻找文档子话题,利用聚类信息挖掘文档中潜在的多个主题,并消除冗余信息。然后用互相增强的迭代算法计算句子的排名。最后形成文摘。在句子聚类中加入优化过程,达到削弱无关句子对聚类结果的消极影响。具体过程是:先构建文档矩阵和无向加权图模型,矩阵的列向量和图的顶点均表示文本的句子,根据句子间距离聚类句子。6相关工作2、RELATEDWORK7对文

4、本表示一般有两种表示:矩阵,图模型。LSA、NMF是对矩阵的变形分析。潜在语义分析(LSA):通过奇异值分解(SVD),将矩阵X分解为如下形式:保留较大的奇异值,增强了文档间相似性。8非负矩阵分解(Non-negativematrixfactorizationNMF):也是一种数据降维方法。它的基本想法就是将一个非负矩阵近似分解为两个非负矩阵的乘积:其分解的算法是一个带约束的非线性规划问题9一般把SVD和NMF分解的U矩阵中的列称为特征向量。NMF的特征向量由于具有非负的特点,特征向量之间的内积必大于零,不可能完全正交,说明NMF分解的特征向量存在信息冗余。而S

5、VD分解的特征向量彼此正交,但失去了非负的特点,可解释性变差。10PageRank是基于图模型的算法:在网页排序中,构建有向图模型,网页是图上的节点,一个网页对另一个网页传递权重,通过链接关系排序网页。在自动文摘中,权重定义为句子间的相似性,一个句子与重要的句子相似度越高,其得分就越高,据此排序所有句子,得到摘要。11基于质心的摘要方法(Thecentroid-basedsummarizationmethod):将文本表示成向量空间模型。质心的构建是通过统计文本中重要的词,为整个文本提供一个原型向量,即质心,对于文档中的每个句子向量,计算其质心向量的距离,距离最近的句子

6、可以作为文档的摘要。主题-特征(Thetopicsignature)采用更加复杂的特征表示文档主题:wewouldreplacejointinstancesoftable,menu,waiter,order,eat,pay,tip,andsoon,bythesinglephraserestaurant-visit12矩阵因式分解(factorizationtechnology)基于图的排序算法(Thegraph-basedranking)机器学习算法(Machinelearningalgorithm)133、SENTENCERANKINGUSINGEMBEDDEDG

7、RAPHBASEDSENTENCECLUSTERING14本文文档摘要的基本步骤:文档建模:矩阵表示一篇文档,列向量表示每个句子;构建加权图模型,顶点表示句子,边的权重表示两个句子之间的距离。句子聚类:文档中的句子聚到不同的类中,发现文档中潜在的多个话题,其中嵌入一种降低低相似度的句子对聚类效果影响的算法。句子排名:根据词-句子-类别之间的互相影响,决定句子的排名。一个词得分越高,包含该词的句子得分就越高,句子所在的类别也越高。153.1Documentmodelingmn用矩阵D[s,...s]R

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。