欢迎来到天天文库
浏览记录
ID:37062654
大小:1.45 MB
页数:82页
时间:2019-05-16
《基于深度学习的命名实体识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于深度学习的命名实体识别研究作者姓名霍振朗学科专业计算机科学与技术指导教师苏锦钿副教授所在学院计算机科学与工程学院论文提交日期2018年4月ResearchonNamedEntityRecognitionwithDeepLearningADissertationSubmittedfortheDegreeofMasterCandidate:HuoZhenlangSupervisor:A.P.SuJindianSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP391学校
2、代号:10561学号:201520131155华南理工大学硕士学位论文基于深度学习的命名实体识别研究作者姓名:霍振朗指导教师姓名、职称:苏锦钿副教授申请学位级别:工学硕士学科专业名称:计算机科学与技术研究方向:自然语言处理论文提交日期:2018年4月20日论文答辩日期:2018年5月31日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:张星明委员:刘发贵俞鹤伟胡金龙韦佳摘要命名实体识别是自然语言处理中一个相当重要的基础任务,是许多自然语言处理的高层应用的一个基础技术。传统解决命名实体识别的方法主要是基于规则和基于统
3、计的。基于规则的方法需要很强的语言学知识,通用性差。而基于统计的方法虽然摆脱了对语言学知识的依赖,但是仍然需要大量人为设计的特征。深度学习具有自学习样本特征的特点,不需要很强的语言学知识,也不需要大量的人工特征,近年来被广泛应用在自然语言处理的各个领域中。基于深度学习的命名实体识别模型,在不需要太多额外特征的情况下,已经超越了传统方法的效果。基于深度学习的命名实体识别还有很大的研究探索空间。本文经过对基于深度学习的命名实体识别进行了深入学习和研究后,发现了目前还存在以下两点不足:1)鲜有通过引入句法信息来提升基于深度学习的命名实体识别
4、模型性能的研究。2)目前基于深度学习的命名实体识别模型基本都是基于句子级别的,存在标注不一致问题。针对以上两点不足,本文首先分析了几个关键模型,通过多组对比实验找出了多个影响句子级别的命名实体识别模型的关键因素。然后尝试了两种引入句法信息的方法:线性编码成分句法树和图卷积编码依存句法树;对两种句法图卷积进行融合改进,并取得了一定的效果提升。最后提出将句法图卷积与文档级别注意力相结合,解决标注不一致问题的同时,提升了模型的性能和通用性。该模型在不需要领域词典作为额外特征的情况下,在CHEMDNER和BioCreativeVCDR语料集测
5、试集上F1值分别达到了91.00%和92.36%。关键词:命名实体识别;深度学习;句法信息;图卷积;文档级别注意力IAbstractNamedEntityRecoginition(NER)isaquiteimportantbasictaskinNaturalLanguageProcessing(NLP)andabasictechnologyformanyhigh-levelapplicationsofNLP.TraditionalmethodsforsolvingNERarebasedonrulesandstatistics.Ther
6、ule-basedmethodsneedstronglinguisticknowledgeandlackuniversality.Thestatistical-basedmethodsgetridofthedependenceonlinguisticknowledge,buttheystillrequirealotofhandcraftedfeatures.DeepLearningwhichcanlearnfeaturesbyitselfrequiresneitherstronglinguisticknowledgenoralagre
7、numberofhandcraftedfeatures.IthasbeenwidelyusedinvariousfieldsofNLPinrecentyears.TheDeepLearning-basedNERmodelshassurpassedtraditionalmethodswithouttoomanyadditionalfeatures.ThereisstillmuchspaceforresearchandexplorationonNERwithDeepLearning.Afterin-depthstudyonNERwithD
8、eepLearning,wefoundthattherearetwodeficiencies:1)ThereislittleresearchontheimprovementoftheDeepLearning-basedN
此文档下载收益归作者所有