基于机器学习的药名实体识别及药物关系抽取

基于机器学习的药名实体识别及药物关系抽取

ID:36550904

大小:4.90 MB

页数:59页

时间:2019-05-12

基于机器学习的药名实体识别及药物关系抽取_第1页
基于机器学习的药名实体识别及药物关系抽取_第2页
基于机器学习的药名实体识别及药物关系抽取_第3页
基于机器学习的药名实体识别及药物关系抽取_第4页
基于机器学习的药名实体识别及药物关系抽取_第5页
资源描述:

《基于机器学习的药名实体识别及药物关系抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于机器学习的药名实体识别及药物关系抽取DrugNameRecognitionandDrug—DrugInteractionExtractionbasedonMachineLearning学21009210指导教师:扬查塞副熬援完成日期:窒Q!圣蔓二三大连理工大学DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成

2、果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:监蝼臣委鱼蜀垒蚴逸趔醯艋抽取作者签名:——年列基因产—一日期:j旺年—£月jL日大连理工大学硕士学位论文摘要随着知识的不断发展,制药工业也成为了以知识为基础的学科。在药物的生产过程中,科学家们需要获取相关的信息和知识。现在与药相关的研究呈爆炸式增长,新药层出不穷,已经远远超出了科学家手工获取知识的能力。尽管有一些信息是结构化存储的,但是大量的有价值的信息还是以非结构化自然语言的形式存在的。生物命名实体识别的直接目的是从非结构化的生物信息中

3、识别出指定类型的名称,它是信息抽取、机器翻译、信息检索和自动问答等多种自然语言处理技术的重要基础。药物命名实体识别就是从非结构化的医学信息中查找出药名,找出药名之后我们可以继续判断两个药物之间是否存在一些关系。众所周知,在中国的复方药里面,经常是好几种药一起服用,这样可以同时治疗几种症状。但是药与药之间存在着一些交互关系,这些交互关系有可能是促进的作用,使病好的更快,但也有一些是副作用,在治疗病的同时也带来了其他的不适。这样如果两种药同时服用会产生副作用,那么医生就应该避免将这两种药开在一个药方中。所以目前药物与药物之问的交互关系抽取也成为一个热门的研究课题。本文首先介

4、绍了相关的命名实体识别技术、研究概况、比较经典的生物命名实体识别方法以及其存在的问题等。本文提出了一种监督学习和半监督学习相结合的方法进行命名实体识别。虽然生物命名实体识别方面的研究比较多,但主要集中在蛋白质、基因等方面,药物命名实体识别是一个比较新的课题。药名实体识别之后,我们的下一步工作就是判断出两个药物之间是否存在关系。接下来本论文介绍了关系抽取的研究概况及目前比较好的一些方法。然后提出了一种多核融合的方法,该方法不仅仅融合了3种核,而且还引入了领域相关知识,用到了药物数据库DRUGBANK中的一些信息。本文中我们主要是判断两个药名之间是否存在关系,并没有将关系再

5、进行分类。在药名实体识别的研究中,我们首先用外部资源DRUGBANK和PUBMED结合模板匹配的方法构造了一个药名词典,然后用一种半监督学习方法一特征耦合泛化(FCG)对构造的词典进行去噪,最后再将词典查找方法和监督学习方法条件随机场(CRY)进行融合,从而得到最后的结果。我们的方法在DDIExtraction2011task的测试集上取得了92.54%的F值。在药物关系抽取中应用了一种多核融合的方法,分别是词特征核、图核和树核。在词特征核中我们加入了领域特征,从而取得了很好的性能。在核的线性组合中我们根据每个核的性能高低给予了不同核不同的权值,实验结果显示,该方法取得

6、69.24%的F值,优于DDIExtraction2011challengetask中的任何一个参赛队伍。关键词:药名实体识别;药物关系抽取;监督学习;半监督学习;特征耦合泛化基于机器学习的药名实体识别及药物关系抽取DrugNameRecognitionandDrug—DrugInteractionExtractionBasedonMachineLearningAbstractWitllthedevelopmentofknowledge.Thepharmaceuticalindustryisincreasinglybecomingaknowledge—baseddisc

7、ipline.Intheprocessofdevelopingdrugs,Scientistsneedtoaccessrelevantinformationandknowledge.Atpresent,theresearchaboutdrugshasbeengrownexplosively,andvariouskindsofnewdrugsemergedendlesslywhichhasoVer、^,hehnedmosthealthcareprofessionals.Althoughsomeoftheinformationisstored

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。