欢迎来到天天文库
浏览记录
ID:35047191
大小:6.71 MB
页数:63页
时间:2019-03-17
《分布式表示与组合模型在中文自然语言处理中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代巧:10286产^冶疏分类号:TP311密级.’’004'**UDC.4装舊:':!糾..撫辨r4^丰呼審感"i棄馬大來繼?^±学位论文分布式表示与纽合模型在中文自然语言处理中的应用研究生姓名:温蕭导师姓名:高志强教授申请学位类别工学硕±学位授予单位东南大学一日期2065级学科名称计算机科学与技术论文答辩1年月%曰二级学科名称学位授予日期2016年月曰答辩委员会主席摆玉庆教授评阅人摆玉庆教授匿名评阅人2
2、016年6月1円来兩未?雙硕±学位论文分布式表示与组合模型在中文自然语言处理中的应用专业名称:计算机科学与技术研究生姓名:湿潇导师姓名:髙志强教授本课题的研究受到国家自然科学基金项目(61170化引的资助。DISTRIBUTEDREPRESENTATION乂NDSEMANTICCOMPO别TIONINCHINESELANGUAGEPROCESSINGAThesissubmi行ed化SoutheastUniversityFortheAc
3、ademicDereeofMasterofEnineeringggBYWen沿ao,忙Supervisedby:Prof.GaoZhiianqgSchoolofComputerScienceandEngineeringSoutheastUniversity2016/6/1东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知除了文中特别加臥标注和致谢的地方外,论文中不包含其他人已经发表或撰
4、,写过的研究成果也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材,料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。硏究生签名:修誇日期:^东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可W采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和一纸质论文的内容相致。除在保密期内的保密论文外允许论文被查阅和借阅可1^公,,布(包括刊登)论文的全部或部分内容。论文的
5、公布(包括巧登)授权东南大学研究生院办理。了..硏究生签名:导师答么日期:祕各?摘要近年来词的分布式表示与组合模型在自然语言处理领域中取得了诸多突破性的成果。词的分布式表示使用实值向量对词进行建模可urn无标记语料库学到词的语法和,语义信息,而组合模型可^心对词间或词内语义组合进行建模。在英文自然语言处理中,这些模型在语言模型、词性标注与文本分类等自然语言处理任务的性能超越了其他模型。受限于语言特性与语料资源在相关中文任务中这些模型并没有在性能上超越其,,他模型。本文针对中
6、文分布式表示与组合模型中相关研究缺乏大规模无标注语料的情况构,建了基于新闻的大规模无标记语料库用于训练词的表示向量,并在此基础上结合中文的字没有明确语义的特点对词内和词间的语义组合进行建模。具体来说本文主要进行,,了如下工作;针对中文没有公开的大规模语料供字词表示学习的现状本文构造了一个大规(1),模新闻语料库。该语料库规模大约是此前中文棺关研究中使用的语料库规模的25 ̄9000倍。使用该语料库训练得到的词的分布式表示在词语类比推理任务上超,过了此前相关研究的最好结果。(2)针对词向
7、不能很好表示未登录词和低频词的问题,本文结合中文的语言特性,提出了词的拆分模型和基于前馈神经网络的组合语义模型。词的拆分模型可1>(^根据语料库中的统计信息对词的内在结构进行拆分,获得词的内部结构;而组合语义模型可对词的内部结构间的语义组合进行建模。实验表明组合语义模型可很好地对低频词和未登录词进行表示。(3)构造卷积神经网络对词间语义组合进行建模,并在多个文本分类和憎感分析数据集上进行验证。模型在文本分类任务上接巧了FNLP自然语言处理系统的分类正确率并在情感分析任务中超越了该系统。
8、实验表明卷积神经网络可L乂昏效对词,间语义组合进行建模并验证了本文训练得到的词向量在文本分类和情感分析任,务中的有效性。关键词:自然语言处理表示学习组合语义卷积神经网络;;;IAbs化actRecently,Distributedrepresentationsofwordsandmodelsofsemanticco
此文档下载收益归作者所有