欢迎来到天天文库
浏览记录
ID:34711251
大小:2.33 MB
页数:75页
时间:2019-03-09
《基于卷积神经网络的中文自动文摘方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于卷积神经网络的中文自动文摘方法AUTOMATICCHINESETEXTSUMMARIZATIONMETHODBASEDONCONVOLUTIONALNEURALNETWORK喻丽哈尔滨工业大学2016年12月万方数据国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.8密级:公开工程硕士学位论文基于卷积神经网络的中文自动文摘方法硕士研究生:喻丽导师:陈清财教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2016年12月授予学位单位:哈尔滨工业大学万方数据ClassifiedIndex:TP391.
2、1U.D.C:004.8DissertationfortheMaster’sDegreeofEngineeringAUTOMATICCHINESETEXTSUMMARIZATIONMETHODBASEDONCONVOLUTIONALNEURALNETWORKCandidate:LiYuSupervisor:Prof.QingcaiChenAcademicDegreeAppliedfor:Master’sDegreeofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSc
3、hoolDateofDefence:December,2016Degree-Conferring-Institution:HarbinInstituteofTechnology万方数据哈尔滨工业大学工程硕士学位论文摘要现如今互联网上的数据激增,大数据时代大规模长文本数据的自动文摘,对人们能够从海量数据中快速获取所需的信息意义重大。以往对自动文摘的研究大多集中在小文本数据集上,而大规模长文文摘数据集的缺乏又限制了深度学习方法在自动文摘任务中的应用,难以满足当前大数据时代的需求。针对此现状,本文基于构建的大规模数据集,通过基于卷积神经网络模型和LSTM模型的深
4、度学习方法,实现了对中文长文本摘要的自动获取。针对以往大规模长文文摘数据集缺乏影响中文长文自动文摘任务技术研究的问题,本文通过对网络数据进行调研,以新浪微博为平台,建立了微博爬虫和网页正文提取算法。通过对媒体用户发布的带有链接的微博内容进行爬取,并用正文提取算法将微博对应链接的原文内容提取出来,进行去噪过滤后,最终构建了一个具有20万对微博和对应原文的大规模中文文摘数据集,针对实验过程中要用到的数据标注,本文还构建了一个能够同时将原文和对应微博共有词进行高亮显示的标注系统。针对以往自动文摘获取方法效率低、性能差,难以满足当前大数据时代大规模文本自动文摘任务
5、的问题,本文基于自主构建的大规模数据集,对深度学习在自然语言处理领域的应用技术进行了深入研究,提出了基于LSTM模型和基于卷积神经网络的深度学习方法,实现了对中文长文本的自动文摘获取任务。对于LSTM模型的方法,将原文和原文句子分别以词向量的形式作为两个序列输入到LSTM模型中,通过LSTM单元层和均值池化层的计算处理,得到两个能够表征原始序列语句语义的特征向量,在逻辑回归层进行两者匹配的概率计算后,根据概率高低确定文章摘要。对于卷积神经网络方法,分别将原文和原文中的句子用词向量矩阵表示,两者通过卷积神经网络的卷积和最大池化操作,最终得到能够表征各自语义信
6、息的特征向量,通过非线性的全连接神经网络对两个特征向量的组合匹配进行打分,根据分值高低确定文摘句。为了验证文中所提方法自动获取文摘的性能,本文从构建的数据集中人工标注了1000篇原文和对应微博用于各实验方法的测试,并采用自动文摘的ROUGE评价方法对测试结果进行评价。评价结果表明,相比于传统方法,深度学习方法在文本语义表示上具有很大的优势,基于卷积神经网络方法所得实验效果更胜于基于LSTM模型方法,使得文摘的智能型和质量得到了一定提升。关键词:自动文摘;中文文摘数据集;深度学习;卷积神经网络-I-万方数据哈尔滨工业大学工程硕士学位论文AbstractNow
7、adays,dataontheInternetshootupveryfast.Onbigdataera,theautomatictextsummarizationofalarge-scalelongtextdataisofgreatsignificancetopeoplewhocanquicklyobtainthenecessaryinformationfrommassivedata.Previousresearchonautomaticsummarizationmostlyfocusedonthesmalltextdataset,whichisdiffi
8、culttomeettheneedsofthecurrentbig
此文档下载收益归作者所有