欢迎来到天天文库
浏览记录
ID:35070848
大小:5.58 MB
页数:59页
时间:2019-03-17
《基于递归神经网络的生物医学命名实体识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、乂连键大聋DALIANUNIVERSITYOFTECHNOLOGY硕王等恆巧义MASTERALDISSERTATION幽K;基于递归神经网络的生物医学命名实体识别学掛专业计算机应用技术作者姓名金直互抬导巧肺李丽双教授2〇166_^__1_答辩日期硕壬学位论文基于递归神经网络的生物医学命名实体识别NamedEntitiesRecognitionBasedonRecurrentNeuralNetwork
2、inBiomedicalLiteratures;金留可作者姓名学科、专业:计算机应用技术学号:21309177指导教师;李丽双教授完成日期:2016年6月7日夫連巧义乂缘DalianUniversityof了echnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中己经注明引用内容和致谢的地方外,本论文不包含其他个人或集体£]经发表的研究成果
3、,也不包含其他&申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:A旬钟爲.痛各施换良喀呼命咳呼如抑:■作者签名:日期>,,,/《年月化日f_令彌4大连理工大学硕±学位论文摘要生物医学领域中的诸多信息抽取任务,如关系抽取、文本分类、指代消解W及事件抽取等。目前的命名实体识别方,往往需要预先识别出文本中表示指定类型的实体名称法需要丰富的领域
4、专家知识,,抽取大量人工特征。为了降低这些人工设计耗费的代价本文基于预训练的词向量和递归神经网络,提出简单有效的生物命名实体识别方法并;一系列扩展和改进对神经网络进行,提高对实体的识别性能W及在不同语料集上的适应性。首先,在传统递归神经网络(RNN)的基础上,,对隐层和输出层同时采用递归计算,使隐藏层记录前文的历史信息;而输出层可建立起标记之间潜在的依赖关系。同时为了弥补在对句子划分子序列时导致的上下文信息缺失,利用布朗聚类算法和狄利克雷(LDA)算法构建特征层模式化范
5、围更广的上下文语义信息。最后,组合两个方向相反tF-的单向RNN进行生物医学文本中的命名实体识别,在BiocreaiveIIGM语料上的值〇达到了83.62/〇。其次一,为了进步提高命名实体识别的效果,克服RNN在处理过长句子时存在的(L),LTM梯度弥散问题,STM网络结构此基础上S采用长短时记忆;并在构建了双向LSTM递归神经网络。另外微调词向量的过程会导致预训词向量信息的丢失,本文巧)提出采用两套不同的词向量扩展LSTM结构单元;并根据两套词向量差值计算出句子语
6、BLSTM-义向量表示,从而构建出融入句子向量和双向词向量的(STBLSTM)递归神-经网络,本文的方法达到了88.61%的F值,比采用词典。在BiocreativeIIGM语料上一140%与分类器组合及后处理的评测第名系统提高了.。,综上,本文主要采用了两种不同的递归神经网络进行命名实体识别避免了抽取人工特征时的代价-BLSTM递归神经网络具有更好的识别性能和适应。同时,提出的STRNN-,BiocteIIGM499性:与传统的相比它在reaiv语料上的F值
7、提高了.%而与采F-1.33%用丰富人工特征的基于浅层机器学习方法的系统相比,值提高了。关键词:命名实体识别;词向量;递归神经网络;甸子向量;长短时记忆--I大连理工大学硕+学位论文NamedEntitiesRecognitionbasedonRecurrentNeuralNetworkinBiomedicalLiteraturesAb巧ractI-ntnbiomedical打eldrecoizindifferenttesofe
8、ntitiesishe行rstsl;einanumberof,ggyppinformatio打extractiontaskssuchasrelationextraction1:extclassificationcoreference,,resolutionandeventextractio打.For化ecurrentexistingmethods,richdomainexpertknowledgeandamou
此文档下载收益归作者所有