欢迎来到天天文库
浏览记录
ID:38676869
大小:2.46 MB
页数:59页
时间:2019-06-17
《基于深度学习的中文自然语言处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、隶.初大·坚硕士学位论文万方数据基于深度学习的中文自然语言处理研究生姓名:吴轲导师姓名:高志强教授万方数据CHn寸ESENAn爪ALLANGUAGEPROCESING:THEDEEPLEARNINGAPPROACHAThesissubmittedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBY缪2,KeSupervisedby:Prof.GaoZhiqiangSchoolofComputerScience&EngineeringSoutheastUniversit
2、yApril1,2014万方数据东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:东南大学学位论文使用授权声明日期:9-o(中.中、/’东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其
3、他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。研究生签名:邀导师签名:日期:≯D,垆妒.,.万方数据摘要深度学习是当前机器学习领域研究的前沿与热点之一,深度学习的研究与应用已经在英文自然语言处理领域成功地产生了诸多突破性的成果。在中文自然语言处理领域,基于深度学习的研究近年来方兴未艾。但是,由于中文与英文本质上的不同特点,在英文自然语言处理领域获得良好结果的深度学习模型和方法无法被直接应用于
4、中文,研究人员需要根据中文的特点重新建立合适的深度学习模型,寻找合适的训练方法。本文在深度学习的英语自然语言处理模型的基础上,提出了适用于中文自然语言处理的深度神经网络模型,以及针对该模型的完整的训练方法,包括无监督预训练方法以及有监督调优训练方法。该模型无需任何语言学知识或手工特征设计,可被用于中文分词、词性标注以及命名实体识别等多种中文自然语言处理任务。具体来说:1)本文针对中文的特点,提出了中文自然语言处理深度神经网络模型;2)本文提出了一个新的优化目标来构造中文神经语言模型,并从理论上说明了使用本文提出的优化目标训练中文神经语言模型等
5、价于训练一个特殊的降噪自动编码器——文本窗口降噪自动编码器(TextWindowDenoisingAutoencoder);3)本文描述了通过堆叠文本窗口自动编码器来预训练中文自然语言处理深度神经网络的过程:4)本文说明了针对具体任务有监督地调优训练中文自然语言处理深度神经网络的过程。本文根据提出的模型以及训练方法,建立了一个完整的基于深度神经网络的中文自然语言处理系统。该系统的主要特点为:1)完全基于统计,无需任何语言学知识或手工特征设计:2)支持并行的模型训练,有效地提升了在多CPU核心环境下的模型训练效率;3)支持多任务学习,可以准确、
6、高效的处理原始中文自然语言文本,并同时完成分词、词性标注以及命名实体识别等任务。本文使用公开数据集在上述系统中进行了实验。实验结果表明,使用本文提出的模型以及训练方法可以有效地解决中文自然语言处理中的分词、词性标注以及命名实体识别问题,并可获得良好的性能。关键词:深度学习,降噪自动编码器,中文自然语言处理万方数据AbstractDeeplearningisthenewfrontierofmachinelearningreseal'cl呜whichhasledtomanyrecentbreak-throughsinEnglishnaturall
7、anguageprocessing.However,thereareinherentdifferencesbetweenChineseandEnglish,andlittleworkhasbeendonetoapplydeeplearningtechniquestoChinesenaturallanguageprocessing.NewdeeparchitecturesandlearningmethodsthatarespecificallytailoredforChinesenaturallanguageprocessinghavetobe
8、invented.Basedonde印modelsinEnglishnaturallanguageprocessing,inthisthesisweproposea
此文档下载收益归作者所有