欢迎来到天天文库
浏览记录
ID:50626843
大小:2.76 MB
页数:39页
时间:2020-03-12
《自动文摘技术点概要.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、自动文摘的技术点概要指导老师姜老师报告人丁晓菲四种主要的方法自动文摘基于抽取的自动文摘基于统计的自动文摘基于图模型的自动文摘基于抽象的自动文摘基于理解的自动文摘基于Seq2Seq的自动文摘目录CONTENTS概述PARTONE基于统计PARTTWO基于图模型PARTTHREE基于Seq2SeqPARTFIVE展望PARTSIX基于理解PARTFOUR概述PARTONEPARTONE概述海量文本数据人该如何去获得有价值的信息?PARTONE概述PARTONE概述自动文摘自动文摘就是利用计算机自动地从原始文献中提取文摘。文摘是准确全面地反映某一文献中心内容的简洁连贯的短文。PARTONE概述基于
2、统计PARTTWO抽取式的自动文摘PARTTWO基于统计。计算词频TF-IDF构建句子向量Word2vec计算相似性WeightedOverlap生成摘要PARTTWO基于统计词频根据句子中有效词的个数可以计算句子的权值权值按其所含代表性“词串”的数量来计算共现频率最高标题标题是作者给出的提示文章内容的短语,借助停用词词表(Stoplist),在标题或小标题中剔除功能词或只具有一般意义的名词,剩下的词和原文内容往往有紧密的联系,可以作为有效词。位置段落的论题是段落首句的概率为85%,是段落末句的概率为7%。因此,有必要提高处于特殊位置的句子的权值。句法结构句式与句子的重要性之间存在着某种联系
3、,比如文摘中的句子大多是陈述句,而疑问句、感叹句等则不宜进入文摘线索词取正值的褒义词(BonusWords),取负指的贬义词(StigmaWords),取零值的无效词(NullWords)。句子的权值就等于句中每个线索词的权值之和指示性短语基于图模型PARTTHREE抽取式的自动文摘PARTTHREE基于图模型PARTTHREE基于图模型PageRankPARTTHREE基于图模型PARTTHREE基于图模型基于抽取的自动文摘TextRank提取摘要PARTTHREE基于图模型TextRankPARTTHREE基于图模型提取关键字每个单词做为PageRank中的一个节点,设定窗口大小为Kw1
4、,w2,...,wk、w2,w3,...,wk+1、w3,w4,...,wk+2等都是一个窗口在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词PARTTHREE基于图模型你们帅气很PARTTHREE基于图模型提取关键句将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度通过PageRank算法计算得到的重要性最高的若干句子可以当作摘要基于理解PARTFOUR抽象式的自动文摘PARTFOUR基于理解模拟人脑??分析??PARTFOUR基于理解。语法分析语
5、义分析语用分析和信息提取文本生成基于Seq2SeqPARTFIVE抽象式的自动文摘PARTFIVE基于Seq2Seq基于抽象的自动文摘Seq2Seq模型Attention机制PARTFIVE基于Seq2SeqRNNPARTFIVE基于Seq2SeqSeq2Seq模型PARTFIVE基于Seq2Seq编码(Encode)在Seq2Seq中,各类长度不同的输入序列x将会经由循环神经网络(RecurrentneuralNetwork,RNN)构建的编码器编译为语境向量c。向量c通常为RNN中的最后一个隐节点(h,Hiddenstate),或是多个隐节点的加权总和。PARTFIVE基于Seq2Seq
6、解码(Decode)编码完成之后,我们的语境向量c将会进入一个RNN解码器中进行解译。简单来说,解译的过程可以被理解为运用贪心算法(一种局部最优解算法,即选取一种度量标准,默认在当前状态下进行最好的选择)来返回对应概率最大的词汇,或是通过集束搜索(BeamSearch,一种启发式搜索算法,可以基于设备性能给予时间允许内的最优解)在序列输出前检索大量的词汇,从而得到最优的选择。PARTFIVE基于Seq2SeqPARTFIVE基于Seq2SeqAttention机制attention机制是(非常)松散地基于人类的视觉注意机制。就是按照“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”感知图像
7、的周边区域的模式,然后不断地调整聚焦点。PARTFIVE基于Seq2SeqPARTFIVE基于Seq2Seq一个简单的例子PARTFIVE基于Seq2SeqX是输入的单词Y是输出的单词PARTFIVE基于Seq2Seq展望PARTSIXPARTSIX展望PARTSIX展望PARTSIX展望THANKS
此文档下载收益归作者所有