基于cnn-blstm-crf模型的生物医学命名实体识别

基于cnn-blstm-crf模型的生物医学命名实体识别

ID:9032149

大小:852.11 KB

页数:9页

时间:2018-04-15

基于cnn-blstm-crf模型的生物医学命名实体识别_第1页
基于cnn-blstm-crf模型的生物医学命名实体识别_第2页
基于cnn-blstm-crf模型的生物医学命名实体识别_第3页
基于cnn-blstm-crf模型的生物医学命名实体识别_第4页
基于cnn-blstm-crf模型的生物医学命名实体识别_第5页
资源描述:

《基于cnn-blstm-crf模型的生物医学命名实体识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文章编号:1003-0077(2011)00-0000-00*基于CNN-BLSTM-CRF模型的生物医学命名实体识别李丽双,郭元凯(大连理工大学计算机科学与技术学院,辽宁大连116023)摘要:命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。本文提出一种基于CNN-BLSTM-

2、CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,本文方法在BiocreativeIIGM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。关键词:生物医学命名实体识别;词向量;LSTM;CNN;CRF;中图分类号:TP391文献标识码:ABiomedic

3、alNamedEntityRecognitionwithCNN-BLSTM-CRFLILishuang,GUOYuankai(SchoolofComputerScienceandTechnology,DalianUniversityofTechnology,Dalian,Liaoning116023,China)Abstract:Namedentityrecognition(NER)isoneofimportantstagesinnaturallanguageprocessing(NLP).Inrecentyears,En

4、d-to-Endneuralnetworkmodelsfornamedentityrecognitionhaveshowneffectiveperformancesongeneraldomaindatasets(e.g.news),withoutadditionalhand-craftedfeatures.However,inbiomedicaldomain,recentstudiesindicatethathand-designedfeatureshavegreatimpactonthemodel’sperformanc

5、e.Inthispaper,weproposeanovelendtoendneuralnetworkmodel:CNN-BLSTM-CRF,whichdoesnorelayonthehand-designedfeaturesanddomainknowledge.Firstly,CNN(convolutionalneuralnetwork)extractsthecharactervectorswithshapefeaturesfromeachword,whichareconcatenatedwiththewordembedd

6、ingsandfedtotheBLSTM-CRFnetwork.WeevaluateourapproachbycomparingagainstexistingneuralnetworkmodelsforNERusingBiocreativeIIGMdatasetandJNLPBA2004dataset.Theexperimentalresultsshowthatoutsystemreaches89.09%and74.40%F-scoresandoutperformsotherstate-of-the-artofmethod

7、s.Keywords:BiomedicalNER;WordEmbeddings;LSTM;CNN;CRF1.引言命名实体识别是自然语言处理任务的重要步骤。近年来,神经网络在通用领域的命名实体识别表现了很好的性能。相比于统计机器学习方法或基于规则的方法,基于神经网络的深*收稿日期:定稿日期:基金项目:国家自然科学基金项目(no.61672126)。作者简介:李丽双(1967—),女,教授,博士生导师,本文通信作者,主要研究领域为自然语言处理、信息抽取与文本挖掘。郭元凯(1994—),男,硕士,主要研究领域为自然语言处理。度学

8、习方法具有泛化性更强,更少依赖人工特征的优点。因此,许多基于神经网络的通用领[1]域命名实体识别模型被提出。例如Collobert等首次使用CNN与CRF结合的方式在通用命[2]名实体识别领域的CONLL2003语料上取得了较好的效果。Huang等构造了一个采用人工设计的拼写特征的BLSTM-CRF模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。