欢迎来到天天文库
浏览记录
ID:9032149
大小:852.11 KB
页数:9页
时间:2018-04-15
《基于cnn-blstm-crf模型的生物医学命名实体识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、文章编号:1003-0077(2011)00-0000-00*基于CNN-BLSTM-CRF模型的生物医学命名实体识别李丽双,郭元凯(大连理工大学计算机科学与技术学院,辽宁大连116023)摘要:命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。本文提出一种基于CNN-BLSTM-
2、CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,本文方法在BiocreativeIIGM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。关键词:生物医学命名实体识别;词向量;LSTM;CNN;CRF;中图分类号:TP391文献标识码:ABiomedic
3、alNamedEntityRecognitionwithCNN-BLSTM-CRFLILishuang,GUOYuankai(SchoolofComputerScienceandTechnology,DalianUniversityofTechnology,Dalian,Liaoning116023,China)Abstract:Namedentityrecognition(NER)isoneofimportantstagesinnaturallanguageprocessing(NLP).Inrecentyears,En
4、d-to-Endneuralnetworkmodelsfornamedentityrecognitionhaveshowneffectiveperformancesongeneraldomaindatasets(e.g.news),withoutadditionalhand-craftedfeatures.However,inbiomedicaldomain,recentstudiesindicatethathand-designedfeatureshavegreatimpactonthemodel’sperformanc
5、e.Inthispaper,weproposeanovelendtoendneuralnetworkmodel:CNN-BLSTM-CRF,whichdoesnorelayonthehand-designedfeaturesanddomainknowledge.Firstly,CNN(convolutionalneuralnetwork)extractsthecharactervectorswithshapefeaturesfromeachword,whichareconcatenatedwiththewordembedd
6、ingsandfedtotheBLSTM-CRFnetwork.WeevaluateourapproachbycomparingagainstexistingneuralnetworkmodelsforNERusingBiocreativeIIGMdatasetandJNLPBA2004dataset.Theexperimentalresultsshowthatoutsystemreaches89.09%and74.40%F-scoresandoutperformsotherstate-of-the-artofmethod
7、s.Keywords:BiomedicalNER;WordEmbeddings;LSTM;CNN;CRF1.引言命名实体识别是自然语言处理任务的重要步骤。近年来,神经网络在通用领域的命名实体识别表现了很好的性能。相比于统计机器学习方法或基于规则的方法,基于神经网络的深*收稿日期:定稿日期:基金项目:国家自然科学基金项目(no.61672126)。作者简介:李丽双(1967—),女,教授,博士生导师,本文通信作者,主要研究领域为自然语言处理、信息抽取与文本挖掘。郭元凯(1994—),男,硕士,主要研究领域为自然语言处理。度学
8、习方法具有泛化性更强,更少依赖人工特征的优点。因此,许多基于神经网络的通用领[1]域命名实体识别模型被提出。例如Collobert等首次使用CNN与CRF结合的方式在通用命[2]名实体识别领域的CONLL2003语料上取得了较好的效果。Huang等构造了一个采用人工设计的拼写特征的BLSTM-CRF模型
此文档下载收益归作者所有