欢迎来到天天文库
浏览记录
ID:35067219
大小:6.52 MB
页数:63页
时间:2019-03-17
《基于深度学习的跨语言信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、义蓮键A乂聋DALTECHNOLOGYIANUNIVERSITYOFfi西王导恆巧交M乂STE民ALDISSERTATION鑛基于深度学习的跨语言信息抽取研究计算机应用技术学科专业作看姓名墜适周恵巍副教授指导教师答辩日期20166^^硕:±r学位论文基于深度学习的跨语言信息抽取研究-ResearchonCrosslanguaeInformationExtractiongBasedonDeepLearning作者姓名:陈龙学科、专业:计算机用技术学号:21309
2、153指导教师:周惠巍副教授完成日期:2016年06月11日夫金巧义夫聲DalianUniversitofTechnoloy^大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。球《缘马聲磋语畫隹1抽取餐
3、学位论文题目:如乃/I/《/作者签名:日期:如年月日a大连理工大学硕±学位论文摘要基于机器学习的信息抽取方法性能依赖训练语料的质量和数量。然而标注数据在不同语言分布不均衡一,阻碍了中文的信息抽取研究。针对送问题,研究人员提出跨语言信息抽取方法,利用资源丰富语言(源语言)的标注数据来训练资源直乏语言(目标语言)的信息抽取系统。然而,语言鸿沟和机器翻译错误影响了信息抽取的性能。本文研究基于深度学习的中英文跨语言信息抽取技术,主要包括W下内容:(1)基于降噪自动编码机(DAE)的双视图跨语言信息抽取提出基于DAE的双视图跨语言信息抽
4、取方法。在源语言和目标语言向量重构过程中,DAE适当引入噪音,减少翻译错误对分类性能的影响。同化在中英文两个视图,。分别构建分类模型,融合两个模型的分类结果,减少语言鸿沟对分类性能的影响在跨语言情感分类和跨语言模糊限制语识别两个任务进行实验,证明DAE模型和双视图方法均能有效提高跨语言信息抽取性能。(2)基于双语词表示的跨语言信息抽取提出基于双语词表示的跨语言信息抽取方法,双语词表示的学习分为无监督和有监督两个学习阶段。无监督学习阶段利用DAE进行中英文双语词表示学习,捕获中英文双语语义信息。有监督学习阶段将训练语料的标注信息嵌入双语词表示,提
5、高信息抽取。性能实验表明,双语词表示能够有效捕获双语语义信息和标注信息,克服双视图方法难W深入融合两种语言的不足。(3)基于联合表示学习的跨语言信息抽取提出基于験合表示学习的跨语言信息抽取方法。采用长短时记忆递归网络(LSTM),学习中英文双语表示。在词语义表示基础上,引入上下文情感(模糊)信息表示,联合训练惰感词(模糊限制语)在特定语境下的语义和情感(模糊)信息。实验表明LSTM能够有效实现跨语言信息抽取。同时,词语义表示与上下文情感(模糊)信息的联合表示学习能够进一步提高跨语言信息抽取的性能。本文研究了基于深度学习的跨语言信息抽取方法,
6、减少了翻译错误、语言鸿沟等对跨语言分类性能的影响,获得了有效的双语语义信息和标注信息,提高了跨语言信息抽取性能,为深度学习理论在跨语言的相关研究提供了有益借鉴。关键词:跨语言信息抽取;双视图;深度学习双语词表示合表示学习;;联--I基于裸度学习的跨语言信息抽取研究searchonCross-民elanguaeInfbrmationExtractionBasedonDeepgLearningAb巧ractTheerformanceofmachineleami打basedinformatio打extraction
7、sstemreliesonthepgyqualityandquantityoftrai打i打gcorpora.However,labeleddataindiffere打tlanguagesareverymbalancedheackofabeleddatamitstheresearchroressinChineseando1;heri.Tlllipg-m-resourcescarcelanuaes.I打ordertosol
此文档下载收益归作者所有