欢迎来到天天文库
浏览记录
ID:34963727
大小:1.62 MB
页数:71页
时间:2019-03-15
《基于深度学习的生成式自动摘要技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于深度学习的生成式自动摘要技术研究RESEARCHONABSTRACTIVETEXTSUMMARIZATIONBASEDONDEEPLEARNING郭洪杰哈尔滨工业大学2018年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.9密级:公开工程硕士学位论文基于深度学习的生成式自动摘要技术研究硕士研究生:郭洪杰导师:刘秉权副教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIn
2、dex:TP391.1U.D.C:004.9DissertationfortheMasterDegreeinEngineeringRESEARCHONABSTRACTIVETEXTSUMMARIZATIONBASEDONDEEPLEARNINGCandidate:GuoHongjieSupervisor:AssociateProf.LiuBingquanAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffi
3、liation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着互联网技术的发展,文本信息呈指数式增长,人们在文本信息处理和阅读中花费大量时间和精力。自动摘要技术是一种能够从文档中获取重要信息的方法,它能缓解信息爆炸时代给人们带来的时间精力问题。自动摘要技术按照摘要的句子组成进行区分,可
4、以分为抽取式自动摘要和生成式自动摘要。抽取式方法通过评估原文中句子的重要度,从原文中提取重要度高的句子组成摘要,而生成式方法则使用了一系列自然语言处理技术,生成更加简明干练的句子构成摘要。与抽取式自动摘要相比,生成式自动摘要更符合人类撰写摘要的习惯,有着简洁、灵活、多样性等特点。近些年来,深度学习技术的出现推动了生成式自动摘要技术蓬勃发展,当前主流的生成式自动摘要技术主要使用了Seq2Seq框架,通过Seq2Seq框架将文档表示成向量的形式,再由文档向量解码得到生成的摘要。本文对生成式自动摘要关键技术进行
5、研究,主要分为以下三个方面展开:(1)基于深度学习的单文档生成式摘要研究。使用了基于Seq2Seq框架的生成式摘要模型ABS(AttentionBasedSummarization)进行实验,比较了不同神经单元以及正反序输入对模型的影响,在模型中加入了批标准化技术,加快了模型的收敛速度,引入了指针网络(PointerNetwork)、覆盖率机制,并将位置编码同词向量特征融合,提高了自动摘要模型效果,探究了集束搜索(BeamSearch)对解码结果的影响。(2)基于深度学习的多文档生成式摘要研究。为了解决多
6、文档摘要语料匮乏的问题,分析了单文档和多文档摘要之间的联系,将迁移学习技术引入多文档生成式摘要研究任务中。使用了基于特征的迁移学习方法,通过特征映射的方法,分别从关键词和关键句的两个特征维度出发,使用单文档摘要作为源领域,对单文档和多文档进行特征映射,缓解了多文档生成式摘要数据匮乏的问题。(3)自动摘要系统的设计与实现。介绍了网站系统的总体框架与设计,并与文档摘要算法模块进行整合,实现了文档摘要的Web展示系统,证明了自动摘要的实用性和有效性。关键词:生成式自动摘要;深度学习;Seq2Seq;迁移学习;注
7、意力机制I哈尔滨工业大学工程硕士学位论文AbstractWiththedevelopmentofInternettechnology,textualinformationhasgrownexponentially,andpeoplespendalotoftimeandeffortontextualinformation.Automaticsummarizationtechnologyisamethodthatcangetimportantinformationfromdocuments.Itcanhelp
8、peoplereducethewasteoftimeandenergybroughttopeopleinaneraofinformationexplosion.Inthetermofsentencesofsummarization,Automaticsummarizationtechnologyisbroadlydividedintoextractivesummarizationandabstractivesummarizat
此文档下载收益归作者所有