中文自动文摘关键技术研究与实现

中文自动文摘关键技术研究与实现

ID:34955191

大小:2.42 MB

页数:71页

时间:2019-03-15

中文自动文摘关键技术研究与实现_第1页
中文自动文摘关键技术研究与实现_第2页
中文自动文摘关键技术研究与实现_第3页
中文自动文摘关键技术研究与实现_第4页
中文自动文摘关键技术研究与实现_第5页
资源描述:

《中文自动文摘关键技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文(工程硕士)中文自动文摘关键技术研究与实现RESEARCHANDIMPLEMENTATIONOFKEYTECHNOLOGYOFCHINESEAUTOMATICSUMMARIZING张洪荣哈尔滨工业大学2018年06月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文中文自动文摘关键技术研究与实现硕士研究生:张洪荣导师:刘秉权教授副导师史桦兴工程师申请学位:工程硕士学科:软件工程所在单位:计算机学院答辩日期:2018年06月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:621.3Dissertatio

2、nfortheMasterDegreeinEngineeringRESEARCHANDIMPLEMENTATIONOFKEYTECHNOLOGYOFCHINESEAUTOMATICSUMMARIZINGCandidate:ZhangHongrongSupervisor:Prof.LiuBingQuanAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofComputerScienceDateofDefence:June,2018Degree-Conferring

3、-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要互联网的迅速发展伴随着每天产生大量的文本数据,文摘是文本的主要内容,自动文摘能够给用户提供一种快速了解原文内容的方式。同时,自动文摘研究有着广泛且重要的应用场景,如Web搜索引擎摘要、问答系统的知识融合以及舆情监督系统的热点和专题追踪等,因此,自动文摘的研究定会推动整个自然语言处理的发展。本文主要研究了中文抽取式和生成式自动文摘方法。对于抽取式自动文摘,调研到并实现了五类常用方法:基于规则和统计的方法、基于图模型方法、整数线性规划、词向量包方法以及机器学习方法。而且本文的重点是,在

4、基于图模型的方法中,完成了多种方法来改进句子相似度计算,相比传统图模型方法取得了明显的效果提升;在机器学习方法中,融合了词性特征、依存句法特征、命名实体特征、词向量和统计特征等,构成了115维丰富且具有代表性的特征向量空间。本文将文摘任务作为回归问题,避免了将文摘作为二分类问题出现的样本类别偏斜以及不能做变长文摘的弊端,并且创新提出了回归值label的计算方法。对于生成式自动文摘,本文使用序列到序列(Seq2Seq)的深度学习模型来解决,解码器是根据编码器对源语言的抽象表示预测目标词序列的,正是这种抽象表示为生成式自动文摘提供了可能。本文虽然实现了基于深度学习模型的生成式自动文摘,但仍有很多弊

5、端,如生成重复词等问题。为了方便展示,本文最后实现了一个Django系统来调用实验接口并呈现各方法的文摘结果。关键词:自动文摘;特征向量空间;序列到序列的模型;回归算法-I-哈尔滨工业大学工程硕士学位论文AbstractWiththerapiddevelopmentoftheInternet,alargenumberoftextdataaregeneratedeveryday.Summarizationisthemaincontentofthetext.Automaticsummarizationprovidesaquickwaytounderstandthecontentoftheorigi

6、naltext.Atthesametime,automaticsummarizationresearchhasawideandimportantapplicationscene,suchasWebsearchenginesummary,knowledgefusionofquestionansweringsystem,hotspotandtopictrackingofpublicopinionsupervisionsystem.Therefore,theresearchofautomaticsummarizationwillpromotethedevelopmentofthewholeNatur

7、alLanguageProcessing.ThispapermainlystudiesChineseextractiveandabstractiveautomaticsummarization.Forextractivesummarization,fivekindsofcommonmethodsareinvestigatedandrealized:rulebasedandstatisticalme

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。