基于半监督和深度学习的生物实体关系抽取

基于半监督和深度学习的生物实体关系抽取

ID:35061892

大小:6.23 MB

页数:58页

时间:2019-03-17

上传者:U-56225
基于半监督和深度学习的生物实体关系抽取_第1页
基于半监督和深度学习的生物实体关系抽取_第2页
基于半监督和深度学习的生物实体关系抽取_第3页
基于半监督和深度学习的生物实体关系抽取_第4页
基于半监督和深度学习的生物实体关系抽取_第5页
资源描述:

《基于半监督和深度学习的生物实体关系抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

乂連殘^义聋DALIANUNIV巧SITYOFTECHNOLOGY损±享恆巧文M乂STE民ALDISSERTATIONSHE鐵基于半监督和深度学习的生物实体关系抽取计算机应用技术作者姓名指导教师____2016答辩日期____^__ 硕击学位论文基于半监督和深度学习的生物实体关系抽取BiomedicalEntity民elationExtractionBasedonSem^suervisedpLearninandDeeLearningpg作者姓名:冯钦林学科、专业:计算机应用技术学号:21309巧7指导教师:杨志豪教授20--完成日期16428:乂连巧义乂#Dalia打UniversityofTechnology 大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:基于半监督和深度学习的生物实体关系抽取:>易日期:年/月/X日作者签名 大连理工大学硕±学位论文摘要近年来,随着生物医学文献的快速增长,生物文献中的信息抽取技术已经得到广泛的研究,目前为止,生物医学文献信息抽取中的大部分工作都涉及到关系抽取。生物领域中的关系抽取主要集中于从生物医学文本中识别出生物医学实体名称(蛋白质、药物、--),进而提取生物实体之间的语义关系病症、病症疾病、基因等。本文主要研究疾病治疗物质和蛋白质关系抽取,提出了基于半监督学习和深度学习的方法分别解决实体抽取过程中存在的缺少标注语料集和人工特征构建的问题。为了解决在疾病-病症和病症-治疗物质关系抽取中缺乏语料集的问题,本文采用Co-Tra---ining和。iTraining两个半监督学习的方法构建疾病病症模型和病症治疗物质o-Tra-模型。在训练过程中使用特征核、图核和树核作为Cinin和TriTraining方法的输g一入视图-T。在Triraining的训练过程中采用组合学习的方法将分类器集成在起。实验-Tra-结果表明,CoininriTrainin语料集少的g和Tg方法都可W利用未标注语料集在初始-情况下提升训练性能anino-Tanin。。并且在实验中Tri打ig方法的性能要优于Crig方法使用半监督学习方法进行疾病--病症和病症治疗物质关系抽取时,需要构建大量的人工特征,送些特征的质量直接影响实验结果。而且大量人工特征的构建既费时又费力。针对这个问题--,本文提出了基于卷积神经网络的疾病病症和病症治疗物质关系抽取的方法。该方法可从输入语料中自动学习特征,获取特征的层次结构,降低人工构造特征的成本-T-。同时本文使用Triraining的方法扩充语料集。实验表明与TriTraining方法相比卷积神经网络的方法可レッ获得更好的实验结果。使用半监督学习方法进行关系抽取时存在两个方面的问题一,方面,半监督学习方法在未标注语料选取时选用分类器标注一一一致的样本,部分信息送将损失掉。另方面,在未标注样本加入训练集的过程中,这些样本可能会被标注错误,。为了解决这两个问题本文提出了基于改进的Tr-iTraining进行蛋白质关系抽取的方法。该方法在对未标注语料选取时选用H个分类器标注最不一致的样本。并使用主动学习的方法对所选取的样本进行标注。在AIMED语料集上实验取得了68.80%的F值,实验结果表明该方法和其他方法相比具有较好的性能。关键词:信息抽取;半监督学习;未标注数据;卷积神经网络;主动学习--I 大连理工大学硕±学位论文B-iomedicalEntity民elationExtractionBasedonSemisuervisedLearninpgandDeeLearninpgAbstractInrecentearswiththeraidrowthofbiomedicallUeraturethetechnoloofy,pg,gy*infbrmationextractionIEinl;hebioloicalli化ratuiehasbeens化diedex1;ensivel.Untilnow()gy,*mostoftheworksininformationextractionforbiomedicallil;eraturearerelatedtorelationextraction.Inthebiomedicaldomainrelationextractionmainlocusesonreconizinthe,yfggbiomedicalentitiesname(proteins,drugs,diseases,genes,el:c.)andextractingthesemantic*ThieIationsbetweenentities.ist:hesisfbcusesons化din化erelationsbetweenygse-tt-ttt-adm1liasesomsmomheraeuicsubsanceandro:einro:emandroosesyp,ypppp,pp-semllisupervisedlearninganddeepearningmethodstosovetheproblemthatarelackoflabeedataandmanuafeatureconstructonnenttesreatonsex化actonresective.ldliiiiliil,pyTosolvetheroblemofthelackoflabeleddatainextractinrelationsamondiseaseandpggstomandsmtomandtheraeut-mticsubsancethisthesisroosestwosemisuervisedyp,ypp,ppp-learninalor--ggithmsCoTraininandTriTrainintoconstructthediseasesmptommodel,gg,yan过-s1omttitcemodeInthettteam;heraeucsubs;anl.rainingrocesshefeaurekrnelrhyppp,,gpkernetrt-TT-mettlandeekernelareusedasinpuviewsofCorai打ingandriTraininhods.I打heg-TrTili.irai打inmethodweuseensemblelearnntoinbrateseveralcassfiersExerimenhlg,ggpresu--ltsshowthatCoTraininandTriTrainingalorithmsca打bothutilizet;heunlabdeddataggalongwithafewlabeledexamplestoimprovetheclassificationperformance.Inaddition,theT-Tat-nterformanceofteexpririningouerformsCoTraininin;herime.pgp--Usme化odsforrelttingsemisuervisedlearninationextracionof化ediseasesympompg'-andslm1omteaticsterearescaeofmanualfeaturestheuaitof1:hese;hreuubs:anciresllypp,qug,qyfeatureshavedirectimpacton1:heexperimentalresults.Moreover,t;heconstructionofalargetst-Toturesisobthisthesisnumberoffeaiimeconsuminandlaborious.solvehprlemg,tthtt-mtleveragesaconvolutionalneuralneworkmeodforrelaionexractio打ofdiseasesypom-andsmtomtheraeut.Thhyppicsubstanceismethodcanautomaticallylearnfeatures行omtecorpusandacquireafeaturehierarchy,whichreduces化ecostofma打ualfeatureconstruction.M-eanwhilethisaerusestheTriTraininmethodtoexand化ecorus.Exerimentalresults,ppgpppshow化a-tcomaredwithTriTraininconvolutionalneuralnetworkmethodcanobtaina,,pg,betterresult.--II 基于半监督和深度学习的生物实体关系抽取Therearetrobttt-tewolemsinrelaionexracionbasedonsemisupervisedlearning.0打hp-onehandsemisuervisedlearninchosesunlabeleddatawhicharelabeledconsistentb,pgyclassifiers,1:hisme也odmaylosesomemfbrmation.Onet;heo化erhand,whenunlabeleddataareaddedtothetrainingset,thesesamplesmaybelabelledimproperly.Tosolvethesetwo--roblemsthisaerroosesanimroved1;ritraininmethodforroteinroKininfractionp,pppppgppextractio打PPIE.Thisme化odchoosesunlabeleddatawhichislabeledinconsistentb化ree()yclassifiersandusesactivelearningmethodtolabeltheseunlabeleddata.ExperimerUalresultsshowthat,comparedwithol:hermethods,thismethodca打achievebetterperformancewkh-68.80%FscoreontheAIMEDcorpus.KWt-eordsitiSemiservisedLearninUnlaleddata:InformaonExractonube;y;pg;ConvolutionalNeuralNetwork;ActiveLearning--III 大连理工大学硕±学位论文目录I摘要AbstractII1绪1.111研究背景21.2研究现状1.212.半监督学习在关系抽取中的应用1223..深度学习在关系抽取中的应用134.本文工作145.本文结构2相关资源与技术621.相关概念和工具62丄1关系抽取62丄2句法分析器72.1.3词的表示829.2相关技术2.1支持向量机9.212.2.2神经网络0112.3评测指标3--13基于半监督学习的疾病病症和病症治疗物质的关系抽取313.1实验方法13丄1特征核3143.1.2树核.131.3图核6-173.1.4CoTraining-173.1.5TriTraining13.2实验设计913.19.2语料介绍320.2.2实验设置3-0.3疾病病症模型2-3.1Corann21.3Tiig实验结果与分析-V-I 基于半监督和深度学习的生物实体关系抽取-3.2Ta2.3Tririning实验结果与分析23.4疾病与治疗物质模型23-31CoTann24.4.riig实验结果与分析3T-TYa25.4.2riining实验结果与分析263.5实验结果与分析3.6本章小结27--284基于卷积神经网络的疾病病症和病症治疗物质的关系抽取4.1轉征选择284丄1句子特征28294丄2语义特征304.2实验方法4.3实验结果及分析31431.3.1语料介绍4.3.2实验设置31-324.3.3疾病病症模型3-4.433.病症治疗物质模型433.3.5结果分析4443.本章小结-355TrT基于改进iraining方法的蛋白质关系抽取55.1特征选择35.2算法设计3575.3实验结果及分析35.137.3语料介绍75.3.2实验流程35.3.3结果分析384154.3.与其他方法的性能对比425.4本章小结结论43参考文献4448攻读硕±学位期间发表学术论文情况致谢49大连理工大学学位论文版权使用授权书50-V- 大连理工大学硕±学位论文1绪论1.1硏究背景随着生物医学研究的快速发展,公开发表的生物医学论文和研究成果也呈井喷式增长一。自动地从海量生物医学文本中挖掘有用的知识成为生物医学工作者获取信息的个一一方面生物医学文献中包含许多具有与研究相关的信息,很重要的途径。。另方面大量的生物医学文献也给科研工作者带来极重的工作负担,他们必须通过阅读大量的文献,才能从文献中获取有意义的信息,。因此如何帮助生物医学工作者快速准确的获取有价值的信息成为生物医学自然语言处理的一项重要的研究内容。为了从生物医学文献中自动的获取知识,近年来生物文献中信息抽取技术己经得到广泛的应用和研究。目前为止,生物医学文献中信息抽取的代表性研究主要是关系抽取。生物领域的关系抽取首要任务是从生物医学文本中识别出生物医学实体名称(蛋白质、药物、疾病和基因等),进而提取实体之间的语义关系并构成关系网络,最终用人4][们可理解的方法将关系网络显示出来。当前建立的生物实体关系的数据库有MINT、BINDW、DIPW等,送些数据库为生物实体关系抽的研究做出了很重要的贡献,但是对目前的研究而言一,这些数据库还是很难满足研究者的需求,方面因为数据库的规模比较小一一。另方面,数据库所涉及的领域比较单,对于特定领域的实体关系抽取而言,所需语料严重匿乏。因此在做特定领域的生物实体关系抽取时首先要解决的是语料问题,而信息检索技术可W为我们提供数据来源。在上世纪中期,信息检索技术己经迅速发展起来。生物领域的信息检索技术也获得了广泛的研究。早期的生物医学检索系统主要有MEDLINE和PubMed,它们主要是收一录了大量的生物医学文献信息,被应用于生物医学文献的查找。为了进步获取生物文献中隐含的知识,研究者开始致力于如何使用信息检索技术在搜索文献的结果中进行信息的分类和整理,emantic。随着机器学习的深入研究信息抽取方法在语义关系数据库S^上的使用很大的提升了生物医学信息抽取的效率MEDLINE,并能为研究者提供医学文献中隐藏信息的查询支持。目前在生物实体关系抽取的很多任务中,缺少现成的语料库支持,虽然可过生物信息检索的方法获取大量的相关资源,但是语料集的标注工作既耗时又耗力,而且有时需要相关专业人±进行标注。由此导致大规模的标注工作很难进行,这就意味着可^^获取的标注语料的规模很小,因此我们不得不寻找新的方法进行研究。传统的生物实体关系抽取采用有监督的学习方法,在标注语料集充足的情况下可W获得很好的结果。然-一1 基于半监督和深度学习的生物实体关系抽取而在初始语料不足时,有监督的学习方法很难获得满意的结果。因此近年来半监督学习方法被广泛的研究,它主要是在标注语料集少的情况下利用未标注语料集辅助训练。s-Wt近年来,,深度学习被广泛应用到自然语言处理当中并取得了相对可观的成果。在深度学习提出之前,使用其他的机器学习方法进行任务处理时,需要人工构造特征,特征构造的好坏直接影响实验结果,同时人工构建特征既费时又费力,而且人工构造的特征无法确定是否对任务有效。深度学习的方法解决了特征工程的构造,无需人工构造特征。深度学习有两个优势:a)深度学习可W对特征具有再次学习的能力,降低人工构建特征所需要的时间和成本。b)深度学习可从未标注数据中获取知识,而且可满足海量数据的训练。本文主要应用半监督学习方法和深度学习方法进行生物实体关系抽取研究。采用半一监督学习方法,方面是为了解决生物实体关系抽取过程中初始的标注语料不足的情况一;另方面是为了解决使用半监督学习方法中引入未标注样本时可能存在的噪音问题。采用深度学习方法进行生物实体关系抽取目的是为了解决特征工程的构造和验证使用半监督学习时引入的未标记语料的质量。1.2研究现状1.2.1半监督学习在关系抽取中的应用UU目前,生物医学实体语义关系抽取主要采用基于共现的方法、基于模式匹配的方12t[]w法和基于机器学习的方法。基于共现的方法主要是通过寻找彼此共同出现的实体进UWtisi而抽取出实体之间的关系,该方法简单,召回率很高,但准确率很低。Yen等人采用基于信息检索为基础的共现的方法从生物文本中提取疾病和基因的关系。基于模式匹一配的方法就是预先定义系列的模板,在抽取的过程中通过模板匹配达到关系抽取的目,,,所W这种方法的泛化能力不好的由于模板需要人工进行定义很难找全所有的模板。WHuang等人使用动态规划算法通过调整相关句子和关键词计算识别模式,进行蛋白质关系抽取。基于机器学习的方法,例如支持向量机(SupportVectorMachine,SVM)is【i最大摘和核方法等,利用分类模型从生物文献中抽取实体之间的语义关系。基于机PW器学习的方法又被分成基于特征向量的方法和基于核函数的方法。Nielsen等人仅利,取得了不错的结果用基于特征向量的方法进行实体之间关系抽取。基于核函数的方法223PUP[]D是通过定义不同的核函数进行实体之间的关系抽取,如图核、树核巧路径核。APIirola等人嗎出全路径图核的方法进行蛋白质语义关系抽取,使用了句子中单词和句22t子的依存关系信息,取得了很好的结果an等人巧是出树核的方法进行生物实体中。巧-2- 大连理工大学硕古学位论文蛋白质关系抽取,与之前的句法成分树相比,该方法使用了句法树中最短依存路径上的依存信息,充分挖掘了两个蛋白质实体之间最短依存路径上的信息。这些方法采取的都一是单的核函数,Yang等人采用多个核融合的方法进行生物实体关系抽取,他们通一过使用不同的权重将特征核,、树核和图核H个核融合在起最终使得抽取结果获得很大的提升,。W上基于机器学习的方法都属于有监督的机器学习方法训练时需要大量有标记的语料,而获取这些标记语料需要耗费大量的人力和物力,成本很高,且仅使用少量的标注语料训练出来的模型很难有很好的泛化能力,。在初始语料集的规模很小时半监督学习得到了广泛的应用和研究。半监督学习方法试图让分类器自己主动地对大量未标注语料进行标注W辅助少量有标记语料进行学习。目前的半监督学习大致有四种主流的方法,即基于生成式模型的24"67-32[][]口]-口]方法、基于直推式支持向量机、基于图的方法和CoTraining算法等。GunesPyErkan等人使用直推式支持向量机,使用依存分析树进行生物实体关系抽取。Song等33[巧人]用半监督学习方法结合主动学习进行蛋白质关系抽取,都获得了很不错的结果。P7-T3其中Coraining算法是Blum等人提出的,其方法要求两个完全兀余的视图,即同时一达到两个下述条件的属性集:第,在训练语料集足够的情况下,每个属性集上都可W学习获得一二个强的分类器,,所有;第在给定标记时属性集都满足条件独立。而现实一中的大多数问题很难满足这两个条件,,为了放松这个限制Zhou等人提出了34=-[]TriTraining算法,该算法使用个分类器,有效的解决了对未标注语料的标注问题。2-w[8财Co-Tra理论分析Wang等人ining算法做了大量的,提出在不充分冗余的视图下,-可利用未标注语料也能提升实验性能--CoTraining算法也。CoTraining和TriTra址ng算法都被广泛应用到PS,36]自然语言处理中,崔宝金和钱伟中等人采用联合训练PS(o-Trainin)Cg的方法进行蛋白质关系的抽取,崔宝金等人联合了基于特征核的方法%£巧关合了基于特征核的方法和自动和依存树的方法,;钱伟中等人模式学习的方法都提-Tra高了实验结果。Chou等人使用Triining方法在少量的标注语料的情况下使用大量的未标注的语料进行中文姓名的抽取,取得了很好的结果。1.2.2深度学习在关系抽取中的应用深度学习在近几年受到广泛的关注,目前己经被广泛应用到自然语言处理任务中。8口]深度学习在自然语言上最早的应用是语言模型的训练,Hinton在1998年提出了词的9P:!分布式表示,紧接着Bengio提出了用神经网络训练语言模型,该模型间接地产生了词WW向量。TomasM化olov等人开发出Word2vec把词向量推广到自然语言中。在词向---t1Ont,词基本上是使用Oneho表示(0表示)eho量产生之前,使用表示的词作为深-3- 基于半监督和深度学习的生物实体关系抽取P9度学习的输入,会给模型带来很高的复杂度,而且会引发维度灾难L在使用词的分布一式表示之后,,深度学习使用词向量作为输入被广泛应用方面降低了模型的复杂度;一一另方面引入了词的语义和语法特征。词的分布式表示这成果推动了深度学习在自然42[]N语言处理中的应用。Collobert等人使用卷积神经网络(ConvohitionaleuralNetwo出,CNN)做自然语言处理中的命名实体识别、词性标注等任务,训练时通过卷积获得最终的特征向量用于特定任务的输入,他们没有使用任何人为设计的特征,最终达到各个任?K[]务的目前最好的水平im等人使用卷积神经网络做句子分类,在参数初始化时,。,,对词向量进行优化词向量被当做初始化参数参与卷积训练在训练过程中。Zhang等人M通过使用循环神经网络(Recurrentneuralnetworks,RNN)做关系抽取,更好的利ZW用了实体的上下文信息。eng等人叫吏用卷积神经网络进行关系抽取,他们在Kim的一些比较重要的词袋信息通过标句子分类基础上,,引入了位置信息进行卷积同时选取准的神经网络进行学习,最终将两个网络的结果拼接,他们认为位置信息在关系抽取中46,47[]占有很重要的作用。Liu和Xu等人在使用卷积神经网络做关系抽取时使用了句子的依存信息,通过加入句子的依存信息可W更好的表达两个实体之间的关系。1.3本文工作--本文主要研究疾病病症和病症治疗物质关系抽取及蛋白质的关系抽取,通过对一些问题生物实体关系抽取现状的介绍和分析,面对现阶段该领域存在的,本文将致力于解决下几个问题。--(1)首先目前尚无可供训练疾病病症模型和病症治疗物质模型的语料,完全通过人工标注的手段构建,既费时又费力,且很难进行大规模的标注,因此本文采用半监督-Tra-学习的方法进行实体关系抽取。本文使用了Coining和TriTraining两个半监督学习方法。在训练过程中通过分类器主动地对大量未标注数据进行标注来辅助少量有标注语-Tra料进行学习。在Triining训练过程中,本文使用了组合学习方法,分析了不同的分类器对实验的贡献度。最后比较了两种算法的性能。-(2)虽然通过使用半监督学习方法可W训练出两个很好的模型,疾病病症模型和-治疗物质模型,,病症。但是在训练过程中需要人工构建大量的特征特征的构建对实验结果影响很大。为了降低人工构建特征的复杂性,本文选取卷积神经网络的方法进行模型训练,,。由于初始的训练语料比较少很难训练好神经网络中的参数因此本文选择--,T使用TriTraining来扩充训练集即在riTraining训练过程中添加的未标注语料集。该-4- 大连理工大学硕±学位论文一工构建特征的复杂性-,也间接的验证了r方法方面降低了人TiTraining训练过程中添加的语料的质量。(3)在使用半胜督学习方法进行训练过程中,存在未标注样本标注错误的问题。一当加入大量的未标注样本时,可能会引入错误的信息,般我们常识的认为而且,分类器标注差异性大的样本被正确的标注后加入训练集对训练会帮助很大,因此本文使用了-Tra改进的Triining算法进行蛋白质关系抽取,在训练过程中选取不同分类器标注差异一大的样本,使用主动学习对它们进行标注,然后加入训练集中,方面解决了噪音问题,另一方面也能引入更多包含不同信息的样本。该方法主要是在蛋白质关系抽取的语料上进行实验,因为该语料集上含有标准的标签信息,更适合进行算法比较。1.4本文结构本文总共分五个章节,针对生物实体关系抽取中的问题,详细地阐述了生物实体关系抽取中半监督学习方法和深度学习方法的应用:。具体章节安排如下第一章,绪论,介绍了生物实体关系抽取目前的研究背景,及存在、研究现状的问题和解决方案。第二章,介绍了生物实体关系抽取的概念、词的表示形式、句法分析器化及所使用的分类工具支持向量机和神经网络。随后介绍了生物实体抽取的评价指标。--,TrainT法第;章,主要介绍了使用两个半监督学习方法Coing和Triraining算,进行疾病-病症和病症-治疗物质的关系抽取。分析了两个半监督学习方法的性能。给出,分类器性能变化的详细信息了两种方法在训练过程中。--第四章,主要介绍了使用卷积神经网络训练疾病病症模型和病症治疗物质模型,对比了卷积神经网络和半监督学习方法的性能。同时验证使用半监督学习方法时添加的未标注语料的质量。-第五章,介绍半监督学习算法TriTraining在训练过程中结合主动学习算法在蛋白质关系抽取中的应用,分析了噪音对算法的影响和选择的未标注样本对半监督学习方法的性能影响。结束语,对本文工作的总结和对未来工作的展望。—5— 基于半监督和深度学习的生物实体关系抽取2相关资源与技术21.相关概念和工具21..1关系抽取近年来随着生物医学文献的快速增长,生物文献中信息抽取技术己经得到广泛的研究,生物医学文献中信息抽取的代表性的研巧是关系抽取。生物领域的关。到目前为止系抽取首要任务是从生物医学文本中识别出生物医学实体,进而提取实体之间的语义关系并构成关系网络。目前,生物医。最终使用人们容易明白的方法将关系网络表示出来、学领域的关系抽取的研巧主要有基因与基因之间的关系、蛋白质与蛋白质之间的关系基因与疾病么间的关系。W蛋白质关系抽取为例,句子、基因与治疗药物之间的关系等’’"-二个o化erarmadillorotein0071interactedW她PS1.包含蛋白质Wealso化undanp,p,armad-PS;个蛋白质对。illorotein0071l。然p,p和后这S个蛋白质实体两两组合形成了。因此这句话又衍生出S个实例,每个实例中只关注两个蛋白质之间的关系对该句子的2。从图2.1可见Examle1和Examle2中蛋白质(红实体关系抽取分析如图.1所示,ppse而Examles中蛋白质p0071和PS1之间色标记)之间不存在关系,因此标记为閒,prue。存在关系,因此标记为Th-…con?—ileractan?interatii「1j|-Wealsofoundano化eramikR)kri.007teratedwihPSi.it山l>pn1.mctp1比racou—-J觀teti?FEiit-OUTlneracted\\khPSlalsexamle1:Weakofoimdmiother;miKuik>proemp,it.p-twPSilWealsofoundano化eramad.FdseExame2illorotein007Lineractedi化p:p、p-W(1ittdwitlPSi.Tii)eE別llundalerannadilloroteinK)7、neracei1叩eeasofoiu训p.p图2.1蛋白质关系抽取实例-eriamtenroinnteraciextractonK.2.1Exlofpoipteitongp一一,生物实体之间的关系抽取是个很重要的任务,它具有个很大的应用价值例如可W通过提取疾病与病症的关系和病症与治理物质的关系来提取疾病与治疗物质之间,。的关系,这些信息有利于新药的开发和研制同时也可W把抽取出的关系用图形化展示一。的些相关的公共语料集和评测有便于人们理解近年来,生物医学领域关系抽取teaiAIMED、LLL、BioCKaivell、BioCrtiveII.5等。然而由于这些数据集的规模和评巧J,方式存在较大的不同,而且每个评测之间也存在着很大的差异因此它们不具有可比性。-6- 大连理工大学硕±学位论文例如,在AIMED和LLL数据集上的相关评测中,不需要考虑命名实体识别的效果影响,而只需要考虑关系抽取的性能,因为这些语料集中实体都已经标注出来。而在BioCreative相关的蛋白质关系的评测中,首先要考虑的是语料集中实体的识别和标准化,然后在此基础上进行实体之间的关系抽取,因此该任务具有更大的难度。在目前大多数生物实体关系抽取中,抽取的准确率都无法达到实际应该价值。2.1.2句法分析器句法分析就是指对句子中的词语的语法功能进行分析,主要应用于自然语言处理中,如机器翻译,信息抽取和问答系统中。句法分析是指在指定的文法结构下,将句子从原始的单词序列形式解析成句法树结构。在本文中主要使用GD巧柳和Stanford49Pa[]rser来进行句法分析。48GD[]ep是由东京大学Tsujii实验室开发出来的句法分析器,它主要应用于生物医学中。该句法分析器利用了概率论和数理统计中的逻漫回归化ogisticRegression,LR)分析方法。GD巧通过对句子进行依存分析,得到句子中单词之间的依存关系,然后根据这些关系,将句子用依存句子结构树的形式表示。图2.2是使用GD巧对句子-‘,,P民0了1stimulatesPR0T2roduc-ptionindosedeendentfashionasweIpll.j进行分析得至的结果。在图2.2中箭头的起点和终点是句中的单词,箭头上的标记代表两个连接词语之间的关系。*即|11*OBJM?|??—一一?一—?*?翁?—II■晴麵論sti;—?NM〇D——*A*-*-JMOOJ,|幻;*….__▼,争I;ITIT;;i!杳巧!i「.,P艮饼JrstilatesP氏QT2du*muroctionindodepsepcndengfashionas々础■i:佩一:;MVBZHN;NNINJJNN触RB;t??????>?????翁>*>聲???身?????翁—爭>???翁图2.2GD巧的依存树结构输出实例F.2.2iExame:0ugploflhe山ptroducedbyGDepp49]StanfordParse[r是由斯坦福大学研发的句法分析器。目前己被广泛应用于自然语言处理领域。斯坦福句法分析器主要使用词汇化依存句法分析与概率上下文无关文法等方法。StanfordParser主要的输出形式有词性标注(POS)、依存关系W及短语结构树S种"。表2.1中表巧是使用StanfordParser对Wealso化undano化erarmad-illoroteinp,"0071interactedwip,化PSl.解析得到的短语结构图和依存结构图。-7- 基于半监督和深度学习的生物实体关系抽取表2.1StanfordParser的输出实例Tab.2.1ExamleoftheoututroducedbStanfordParserpppyROOT(巧(NP(P民PWe))(ADVP(民Balso))VPVBDfound(()barsnp巧((睽^卢"树'奸q构NPDT-anotherNNarma加lorotein(()(p))(,,)(NP(NNSp0071))(,,;))VPVBDimerac化d(()PPINwith(()NPNNPPS!..(()))))))()))nubfound-3We-s(1j,)advmod仿un-a-d3lso2(,)rooROOT-und-t(0fo3,)---dearmallcHortin5ano化er4t(poe,)±么广'灼nerac-r--nsubllrten5t化d9amadiooi,)j^pasrm---aadllr517ppo(iootein007p,p)ccomund-3neraced-9p(foitt,)-re-wirPSl11ith(iWeac巧d9pp,)_2.1.3词的表示一想要用机器解决自然语言处理中的问题,首先是要找到种方法将它们数学化。在--1自然语言处理中,目前为止常用的两个词表不的方法是OnehotRepresentation(0表乐)和WordEmbedding(词向量)。一-Onehot的表不方法是把每个词表7F为个很长的向量,送个向量的长度是词表的一U大小,其中只有个维度的值为1,其余的元素都为0:...,。例如香蕉表示为〇,〇凡1凡][‘"啤果表示为0,1爪0爪...若种表示如果采用稀疏方式进行存储,就会变得相当清晰,[]一个固定的数字阻也就是给每个词都分配(即在单词词典中的位置)。这种词的表示一般结合支持向量机方式(SVM)、条件随机场(conditionalrandomfie化CRF)等算法解决自然语言中的各种任务。一-Onehot的表示方法存在些问题,如任意两个词之间都是相互独立的,仅仅从两个向量上看不出两个词么间是否存在关系,。而且被应用于深度学习中时高维的特征会使模型的复杂度加剧,很容易造成维度灾难,。基于W上原因词的分布式表示被急切的^e-应用到自然语言处理中,可心解决使用Onhot表示所带来的问题。-8- 大连理王大学硕±学位论文词的分布表示最早是Hton19%年提出的,主要的贡献是让相近或者相关的in在词""。在距罔上更加相近了。词的分布式表不通常被称为WordReresentation或Wordp"""。’。Embe加in。香豁1(-g,中文多称为词向量如:的词向量表示为0.2U0.10..,[凡,,,,]苹"--果的词向量表示为0.11。我.20.100...[,,,,]们可^通过计算两个向量之间的余弦值来衡量一它们之间语义的相似性。般词向量的维度不高,在50维到200维区间比较常见。用一-词向量表示单词作为深度学习的输入,方面可W降低模型的复杂度ehot,解决使用On表示时容易引人的维度灾难一:另方面词向量包含单词的语义信息,作为深度学习的输入能更好的保留整个输入的信息。目前为止训练词向量的方法和工具有很多,在本文中,我们使用Word2vec工具训练词向量,Word2vec是在2013年由Google的工程师TomasMikolov团队开发出来的。现在己经被广泛应用到词向量的训练之中。2.2相关技术221..支持向量机支持向量机一(SVM)是由Vn&等人在20世纪90年巧代初提出的,它属于种有监督的机器学习模型算法。被广泛应用于自然语言之中。它的基本思想是寻找特征空一二间上间隔最大的超平面,属于种分类模型:。该方法包含几个不同类型的模型线性可分支持向量机、线性支持向量机和非线性支持向量机。模型构建的理论基础主要是统计学中的VC维理论与结构风险最小化准则,经。当训练数据集线性可分时过找寻硬间一隔最大化,学习得到个线性分类器,即线性支持向量机,。当训练语料线性不可分时通过引入核函数,将低维特征映射到高维空间,同时引入软间隔最大化来解决线性不可分问题,学习得到非线性支持向量机。核方法在支持向量机中占有重要地位,核函数表示将输入从输入空间映射到特征空间得到特征向量之间的内积,核函数的引入可yj军决线性不可分问题,等价于在高维空间学习线性支持向量机。本文主要使用的tSVMJighjnC作为分类工具,因为它实现了TreeKernel信息。目前,SVM中常用的核函数主要有H种,分别是线性核函数,多项式核函数,径 ̄向基核函数。它们的公式如(2.1(2).3)所示。此外还可LJ根据自己的需求设计针对特定任务的核函数。线性核函数(LinearKernelFunction):2.1()多项式核函数(PolomialKernelF^ctyn:-9- 基于半监督和深度学习的生物实体关系抽取xz^x-z22K+c.{,){)()[^径向基函数(民adialBasisFunction,RBF):=-fci2/Cx.3,zex()p()()zcr2.2.2神经网络神经网络(NeuralNetwork,NN)模型是许多逻辑单元按照不同层级组织起来的网一一一2.33,,每层的输出变量都是下层的输入变量为个第络。图层的神经网络层成虹一山L一H为输入层(P山Layer),最后层称为输出层(0山Payer),中间层为隐藏层(idden一Layers)海层都增加了个偏倚单位(biasunit):Lay^LLayerL2i图2.3神经网络结构巧.2.3Neuralnetworkarchitecture复神经网络模型的训练包括两个方面,前向传播和后向传播。进行前向传播的目的在一于计算每层节点的激活值,而进行后向传播的目的是调整各层训练参数,把误差传到前面各层,减少误差。(1)前向传播的计算:l'li"二X2.4幻/++;C+尸(巧l听听33却)()-10- 大连理工大学硕±学位论文u''')))。=义/;C++义+2.5戸(昭i呜2昭3与)()2>>>。=X+/賊++.6;,%昭2昭)口)皆。>2>。>2>"==’(。。+++&.7a切_/炯)口)V|1昭邸巧削,(2)后向传播算法:"(",’'''’=-=--.1《。.8V山)f(义,)/悼)口)為非其中一"",表示最后层的输入对于最终的误差产生的影响,称为残差。式一)子(2.9表示的是每层各个节点的残差,有了这个残差后,就可W计算出损失函数对一 ̄于每层参数的偏导数,(211):计算公式为(2.10).也I。'+、'、、>二W.9巧(艺;巧)/(畔)口)=1./=2.10()>jWbx=S.U(;,^,y)r口)哪2.3评测指标生物实体关系抽取所使用的评价标准有准确率(尸)、召回率(i?)、F值(F)和。1[]AreaunderRocCurve((7C。它们的定义如下:杉)TP戶二*100%212(.)\TP+FP民=—^^*100%2.13(\)TP+FN**2PR二-*F100%(2.14)P+Rm*"7_AUC=^=^*!〇〇〇/〇2.K()num-其中r尸是将正例样本预测为正例的个数,是将正例样本预测为负例的个数,F尸是将负例样日饥_本预测为正例的个数;分别表示语料库中关系正例和负例的个数,X,和y分别是系统对关系正例和关系负例的预测值。函数巧下:,。的定义如-1-1 基于半监督和深度学习的生物实体关系抽取—1r>0,//=〇5=02.16〇).r,()j0,r<0准确率和召回率是相互制约的,所W通常用准确率和召回率的平均值F值来衡量系统的整体性能。同时本文也使用值评测实验结果,其优点在于它不受数据类别分口1布的影响,目前己经作为新的性能评测标准。--12 大连理工大学硕±学位论文3基于半监督学习的疾病-病症和病症-治疗物质的关系抽取近年来国家加大对生物医学领域研究的资金投入,生物医学成果及其文献的数量得到快速增长,生物文献中信息抽取技术已经获得广泛的研巧。当前,生物医学领域的关系抽取的研巧主要有基因与基因之间的关系、蛋白质与蛋白质之间的相互作用关系、基因与疾病之间的关系、基因与治疗药物之间的关系等本章研究的是疾病与病症和一病症与治疗物质之间的关系抽取,通过病症把疾病和治疗物质关联起来,例如种疾病一存在某个病症,,而某种物质对送病症有抑制作用据此就可W假设这种物质可能对这一疾病有治疗作用,。这些信息对疾病的治疗和药物的研制有着非常重要的意义。当前尚无可供训练疾病与病症模型和病症与治疗物质模型的语料。完全通过人工标法的手段构建,,费时费力很难进行大规模的标注,因此,本文采用半监督学习的方法进行模型训练。半胳督学习试图让分类器自己主动地对大量未标注数据进行标注W辅助少量有标-T-注数据进行学习。本章采用Coraining和TriTraining这两个半监督学习方法训练疾病-病症和病症-治疗物质模型。在模型的训练过程中主要选取特征核、图核和树核作为两-ra个半监督学习方法的输入视图。同时在TriTinin的训练过程中,采用了组合学习的g方法,将H个视图上学习得到的分类器[^不同的权重组合起来。3.1实验方法在本章的方法里,为了最终训练出疾病与病症模型和病症与治巧物质模型,在训练-TT-过程中使用特征核,raininritrainin、树核和图核个不同的特征集作为Cog和g的视图的输入。3.1.1特征核一在文中为了统,把疾病、病症和治疗物质统称为概念实体。基于特征核的关系抽、工作是特征的选取取方法的核屯,特征选取的好与坏直接影响了实验的结果。在本章主要用了W下四种特征:一(),1词特征:词特征包括2个概念实体名之间的词W及周围的词后者包括第个概念实体名左边的4个词和第二个概念实体名右边的4个词。一(2)N元词:从第个概念实体前4个词起到第二个概念实体后4个词的范围内选择二元词特征和H元词特征作为特征。N元词特征加入了词的上下文信息。(3)位置特征:词特征和N元词特征相对于两个概念实体的位置信息在概念实体,距离实体较近的特征在关系抽取中发挥的作用越大关系抽取中起很重要的作用。因此实验中加入了位置特征。--13 基于半监督和深度学习的生物实体关系抽取(4)交互词特征和概念实体之间距离特征:很多暗指概念实体关系的词存在于两。“"个概念实体名之间或者周围(如bincT、action等),这些词对概念实体关系的表达有很重要的帮助,称之为交互词。而且往往两个概念实体之间的距离也可判别概念实体,距离越近预示着概念实体之间存在关系的可能性就越大之间是否有关系。,并且很稀疏,基于特征核所提取出来的特征向量维度很高,这些特征中低频词很多一有的特征仅出现了次,对分类器的帮助不大,而且大量这样的特征存在会对分类器造成很强的干扰作用,本文选用文档频率的方法。为了选出重要的特征来提高分类准确度315]24对特征进行选择。基于特征核的方法在疾病与病症语料集上所提取的初始特征有.8万个,2,实验中选取文档频率数大于5的特征最终保留特征1.万个;病症与药物语料集上所提取的特征有34.5万个,选取文档频率大于5的特征,最终保留1.37万个特征。123..树核树核是使用句法分析器将句子解析成句法树后,计算任意两颗句法树之间的相似54一[度。卷积树核Kcr/C指卷积)是Collin等人驅出的种特殊的卷积核,通过计算(,巧(两个句法分析树打和於相同子树结构的数目作为两者的语义相似度:公^=A"3.1巧,)的,)()C2之2"£jV,"£W1i2:其中,W是树巧中的节点集;A(心;7分为使用递归算法计算和772为根的相同子树结构数目。(1)卷积核中的句法树的剪裁^l文中使用StanfordParser对句子进行句法解析,在解析之前对语料集中所有的句子进行预处理,把句子中要抽取的两个概念实体名称替换为ENT民Y1和ENTRY2,其"A-他的概念实体名称替换为ENT民Y:GeneeneinteractionbetweenC0021764,例如句子g"MandinterleukinincreasesCOOO^Wrisk我们用MetaMap预处理句子,把实体映射到("-1.经过处理后可^etttl他们的GUIs^>获得句子B:GeneneineracionbeweenENTRYand)gn''interleukinicreasesENTRY2risk。然后用StanfordParser对整个句子进行语法分析。得到ComleteTreeCTCT树包含了完整的语义信息,这些信息存在大量的冗余,会严重p(),5t干扰实验的抽取结果,本文使用Zhan叫是出的最短路径闭。为了去除兀余的信息g等人合树即ShortestPathEnclosedTreeSPT。紳T树是在CT树的基础上经过剪枝得到的,()T一BPT是C树的部分。图3.1是句子使用StanfordParser解析之后得到的CT树和S树,其中SPT树是红色正方形圈住的部分。(2)谓词参数路径--14 大连理工大学硕女学位论文谓词参数表示词与词之间深层的句法和语义关系。在谓词参数结构中,两个概念实体之间最短路径上的不同子结构代表不同的信息。本章把最短路径上的两个wa化特征,---v-ewalk中可walkwawalk包含,e和lk加入到树核中。v从,两个词的句法和语义关系一个节点和两个与它直接相邻的关系得到。如图3.2所示。ROOTNPNPNP■^义rNPVPCDNN丫,,王NNN>JIENTRY!riIINsk干丫,i,,式-GeneinteraciNNCCNNNNSenetonbetweengHNTRY!andinterleukinincreases—氧3.1个解析树的实例Fig.3.1ExampleofaparsetreeVMOD^'xENTRYl,ENTRY,interactedwithENTRY2/NMOD、UBPMOD ̄V-Wa&s]NMODSUBPMODVMODI不IIII|巧j|,ENTRYlENTRY,,ENTRY,‘,interactedENTRY2withinteractedwi化 ̄E-Wa化s] ̄ ̄ ̄ ̄ ̄ ̄ ̄NMODSUBSUBVMODPMODVMOD|||^IIIII|||wthENTRYiinteracted图3.2实例的依存图F.巨xefaerig.32amplodpendencyaphg--15 基于半监督和深度学习的生物实体关系抽取义1.3图核图核方法主要是用句法分析树将句子表示成图的结构。图的相似度是通过比较两个PI1图中公共节点之间的关系获取。实验中使用的是Airola等人提出来的全路径图核。一。.图核中包含了两类子图:分析结构子图和线性顺序子图图33列举了个图的表达实例,图3.3的上半部分是分析结构子图,下半部分是线性顺序子图。这两个子图分别表示句子的依存结构和线性序列。化^化9_广^,0.9HdoblPSjI—X0.3?xcomp0.30.9" ̄Mub■-她 ̄—revv…0,0.3IjK3Hpp_1{1^9Ch^!1K。厂〇3〇30.〇agIImlIIII__iiENTRYlIPinteractsw化ENTRY化disassembleJPENTRY2JPfilamentsJP- ̄"NN1PVBZINNNTOVBIPNNPNNSP_JJ一 ̄'— ̄0.^0.^^^f^ENTRYllnteractsMENTRYMtoM山sassembleENTRY2niamentsA___jMNNVB功NNM咕mNNNNS_A_|II|IIIinmIIII|图3.3图核的两个有向子图Fig.3.3GraphKernelwithtwodirec化dsubgraph一一实验使用了个简单的权重方案,其中方面,在结构子图中最短路径上的边权重I一为0,9。.9,其它边缘的权重为0.3。另方面在线性顺序子图中所有的边的权重均为化图核方法将句子表示成图的形式,通过计算图之间的相似度来计算句子间的相似度。图用矩阵表示,如下所示:’G=AlJ(3)运.2古?1^一其中,是个邻接矩阵,它的行和列的索引都是顶点。表示连接顶点K和顶点F=的边的权重。I是标签矩阵,i表示顶点Fy,行表示标签列表示顶点。Z中包含第i/y’',/个栋签。使用两个图矩阵G和G作为输入图核A(G,G)的计算公式如公式(3.3)所示:’G=G。).3)W,22爲=1\--16 大连理工大学硕±学位论文—3.1.4CoTrainingCo--rainin为了利用未标注语料,实验使用了Training的半监督学习方法,在CoTg一方法中视图满足两个条件:第,在训练数据充足的条件下,每个视图上都可W学习获一个强的分类器,得,第二,在给定标记时两个视图条件独立。训练中选择特征核、图-输入视图-核、树核H者中任意两个作为CoTraining的。实验中使用的CoTraining算法的描述如表3.1所;-31Tn表.Corainig算法框架T-ab.3.1FrameworkofCoTrannoriigali化mg-Cotraining算法1.初始化:己标注训练集心未标注的语料集U左=王=Z初始化训练集山,。(/2)针对训练集找出两个冗余视图fO,朽迭代次数2.训练:=2-.1从未标注语料中随机选取《条语料加入到待分类的U中,[/f/w。22ZF一/视7.使用训练集/在图上训练出个分类器//。一使用训练集Z2在朽视图上训练出个分类器/22。2々去标注未标注语料K.3分别使用Aa224一.々//2注7??,7?7把,2标致的且置信度高的个正例样本和/个负例样本取出从个正例样本中取出的P个分别加入到I;,。中2.5从未标注语料t/中随机选出2m个未标注语料集加入到待分类语辑集《中,使语料集K=n。U-2mN=N-的大小据终是U,l一262 ̄.22.5直/,《.循环到未标注语料集t为空中的未标注语料的数量小于定的数目或者AM)为止3.输出:分类說hi,h;3-1.5iTi.Trraning-Trainin由于Co算法要求采用两个充分冗余的视图,g,在很《情况下很难做到为一T-了进步放松协同训练的约束条件,实验中使用了riTraining算法,它既不需要严格一遵守Co-Tranniig算法中视图所要求满足的条件也不需要使用不同分类器。该方法的,可简单地处理样本的标注置信度问题个最主要的特点是使用了三个分类器。训练中-H个输入视图-选用特征核、图核、树核作为TriTraining的。实验中使用的TriTmining.2所示算法描述如表3:--17 基于半监督和深度学习的生物实体关系抽取3-表.2TrTrinhiag算法框架'T-mat).2FiarTrTrainr.3mewokofiingaloi化gT-riTraining算法1.初始化:己标记的训练集I,未标记的语料t/===,L初始化H个训练集Z/。(心心。),F/(6Kj。针对训练集找出H个视图,,迭代次数W2.训练:2=.1从未标记语料U中随机选取出《条语料加入到待分类的W中。t/化M一2.2使用训练集1。/在F/视图上训练出个分类器/"使用训练集在吟视图上训练出一个分类器也。使用训练集。在K一j视图上训练出个分类器片J。2//2W.3分别使用。2知去标注未标注语料。,,2一WW.4把/"注个正例样本和个负例样本取出W,从个正,知标致的且置信度高的例样本中选出PW,王/个和个负例样本中选出护个置信度高的样本分别加入到训练集/,12,心中2.5从未标注语料U中随机取出个样本加入到待分类语料集U中,使语料集W中的数《=/-2w=7VAM量始终保持为。UC,一2?.62.225/循环.直到未标注语料集f为空,M中未标注语料的数量小于定的数目或者W=0为止3:.输出分类器々/,也,知,不同的分类器从不同的方面计算句子之间的相似性此外。结合这些分类器的相似-L:i■减少重要特征的丢失,Trainin,之处可。因此在Trig的每次迭代过程中为了提升分一一类器的整体性能,我们采用了两种不同的策略将H个分类器集成在起个策略是。第一起用简单的投票方式将H个分类器集成在。第二种策略是为每个分类器分配不同的权一=重,l2()然后归化H个分类器的输出&m3。其,M3.4,,(,,)中表示分类器的个数。公式计算分类器集成之后的输出。K(3.4)=知人"j=lM?=1>0Vw)〇(3.5,,?,所=1--18 大连理工大学硕±学位论文3.2实验设计31.2.语料介绍疾病与病症的语料集是使用从医学主题词表(MedicalSubectHeadinsMeSH)中jg,""选择的200个语义类型为DiseaseorSyndrome(疾病与症状)的概念对Semantic7][55【]MEDLINE〇3{36356进行检索,得到的句子。这些句子首先通过?4613]\439进行命名实体识别,然后进行语义类型过滤,限制初始词和连接词的语义类型,最终得到19928个句子,可获得实验中所需要的初始训练集和测试集,。手动标注这些句子数量分别为598和499。在进行人工语料标注时,制定的标注规则如下:如果句子中的两个概念实体含有关系词列表中的关系,便认定两个概念实体之间存在关系,标为正例样本,如。"“A??。":BA.BBinAABin、canchange.等句子标为正例。因为,说明这种疾病中包含这种生理现象。如果A和B两个概念在句子中仅仅只是共现而没有其他明显关系则标"’’’“""A一为负例样本,如AisaB/、andB等句子标为负例,因为AisaB是个层级的关"’’系,不是实验所需要的关系,AandB仅仅只是A和B共现,并不能说明A能引起B的变化。W实验中病症与治疗物质的语料集的来源如下:首先使用老年痴呆症检索SemRep数据库得到的连接词;然后使用语义类型对连接词进行过滤,得到346个连接词;接着W使用这些连接词对SemRep再次进行检索,获得包含连接词和目标词的句子。最后通55[过MetaMa,得到20461个实验所使用的句子p地行命名实体识别和语义类型过滤。与疾病与病症语料集的处理方式相同,对这些句子进行人工标注,形成病症与治疗物质模型训练中所使用的初始训练集和测试集,它们的大小分别为600和500。在进行人工标注时,所使用的标注规则与疾病与病症的语料集有所不同,具体如下:如果句子中的两个概念实体含有关系词列表中的关系,便认定两个概念实体之间存在关系,标为正例样""本。然而像BinC.这种类型的句子则被标为负例,因为在病症与治疗物质语料集中,需要的是C能够改变B的关系。负例样本的其他标注的准则与疾病与病症语料集上的一标准致.3。语料的具体信息如表3所示。表3.3两个语料集的详细信息Tab.3.3Thedetailsoftwocorpora ̄语料集训练集测试集未标注数据集S^M^^疾病与病症2992992492加18831病症与治疗物质3003002502501W61--19 基于半监督和深度学习的生物实体关系抽取一两个语料集标注完成后,使用Cohen的kappa值分别对两个手工语料集标注致性.进行评测,在两个语料集上的得分分别是0.866和0903。Cohen等人指出kappa值。超过0.8则被认为语料集标注是有效的322..实验巧置实验分别在疾病-病症和病症-治疗物质语料集上使用Co-Training和Tri-Training方法进行,最终训练出两个模型,疾病与病症模型和病症与治疗物质模型。在训练过程中将特征核、树核和图核当作H个不同的特征集合。为了比较把任意两个不同特征集作为-T入视图的实验结果-TCoraining的输,在使用Coraining算法训练模型时,把实验分成-TraH组且所选择的实验参数相同。在使用Triining方法训练模型时,H个不同的特征--Tra集作为TrTraining的输入视图。在Triinin。ig的训练过程中采用了两种集成学习方法一2集成方法1是兰个分类器用等权重的方式集成在起;集成方法是将兰个分类器按照一特征核、图核、树核H者权重比例为4:2:42的方式集成在起。集成方法中的权重比例的选取是通过观察实验结果中在树核上训练的分类器的性能低于在特征核和图核上训练得到的分类器的性能,而在特征核和图核上学习得到的分类器性能相当。根据这个结论,在初始训练集上采用五倍交叉验证的方式选取适当的权重比例对H个分类器进行集成,最终确定集成时采用特征核:4:2。、图核和树核H者权重比例为43-.3疾病病症模型表3.4表示分别在特征核、图核和树核上使用初始的疾病与病症的训练集训练出来的分类器的性能,分类器选用SVM分类器。表3.4在疾病与病症测试集集上的初始结果-Tat).3.4Theinitlresoneeasesm化m化ia山ts化disypStS幻P(%)R(%)F(%)AUC(%) ̄特征核91.3862.1173.9587.13图核93.8759.7773.0487.2169.1062.8965.8573树核.37126...47集成方法9.05328巧0089集成方法292.8160.5573.2989.74-20- 大连理王大学硕±学位论文-31CTii.3.oranng实验结果与分析o-=使用CTraining方法进行了兰组实验,每组实验都使用相同的参数,如w4000m,,=300和100。在这兰组实验中选择了不同的迭代次数,分别为131722和。实验结,果如表3.5所示。在迭代过程中,分类器的性能变化如图3.4,3.5和3.6。表35-Trann-.使用Coiig方法在疾病病症测试集上获得的结果b--mTa.5TresusinCorannse化m化Stset.3heltobtaedwi化tiigon化ediseasyp〇%视图组合MP(/〇)rT(%)F)AUC(%)( ̄ ̄^^^^特征核与图核图核83J671.8877.1587.54特征核86.0669说77.1588.51化几化化树核57.8092.5871.1774.9984’〇4699286.04酿与树核胃.76.33树核58.1095172.3.;1978.10 ̄—— ̄ ̄ ̄—巧'^ ̄—:11I冷命.……-'‘88尔…呼...'寸堂ff参企:;_^r金二二?_:■ ̄*/';84??;:,2:';灼房ig;—'■?WTtf竞■■;:M餐《…拂姐巧占玲理較;1:.I!I?^路巧|I對巧IW*。-。,?〇1】3,?,S910II1213。123456了g占!g速巧次巧巧巧次巧图3.4在特征核和图核上分类器的性能曲线F..4Prrmi3efoancecurveofthecironeaurekernendrarnglass巧esftlaghkeelp—..!a90—————一.,1’'分六?、.令?A*A.令?A々.々心"*..々M命今々々々?々々命々’々?????.*々令命命々令?A々夸化’"?,々".5^63岩68I*人:々粉叫"甘竺J:?L,:,端:"。036921巧182124?r0}6S口。1S2:2274这巧次技芭化A巧图3.5在持征核和树核上分类器的性能曲线F..i35Performancecurveoftheclassifiersonfeaturekernereeglandtkernel-2-1 基于半监督和深度学习的生物实体关系抽取.—.—一.-7890,pj?-一^化-'一一_'??一一/叶"、户八:吿",。呈巧V?//'’三化f?*而运?■*■15^I|"?--W?■村巧寸一巧转|I^W>2幻?化?M22〇2468J01214化!《20巧〇7468SJ141进巧欢坡法代巧孩图3.6在图核和树核上分类器的性能曲线Fi3.erformancecurveoftheclassifiersonraphkernelandt化ekernelg.6Pg4.3.53.6结论:从图3,和,我们能得到下面的-T1)随着迭代次数的增加,F值呈现上升的趋势。原因在于在Coraining的迭代过,程中,扩充为分类器提供,越来越多的未标注语料被标注后加入到训练集中了训练集一,。了新的信息,从而提升了分类器的性能然而经过定的迭代次数后分类器的性能不一(正会再被进步的提升,因为加入未标注语料的同时也引入了噪音数据例被预测为负例,负例被预测为正例)。2)在不同的视图的组合下,分类器的AUC值有不同的趋势。特征核上的分类器的AUC值在88%左右浮动5-。,而图核上的分类器的AUC值在8%87%之间浮动与此相反,所有在树核上的分类器的AUC值都呈现上升的趋势,原因在于在最初树核上的分,比较大。类器性能比较差而随着标注语料的加入,性能提升事实上,,半监督学习方法的性能通常是不稳定的这是因为在学习的过程中未标法入噪音-。在CoTrainin,语料的加入,会间接的引g方法训练的初期噪音数据的数量是一^。很少的,未标注语料加入到训练集可式提升分类器的性能然而,经过定的迭代次数,越来越多的噪音数据被引入之后,这将导致分类器性能降低。3-.3.2TriTraining实验结果与分析-在我们的方法中,选择特征核Trainin的输入视图。在、图核和树核作为Trig-迭代过程中:TriTraining,使用SVM在不同的视图上训练分类器。实验中参数设置如下====m4000w3007100>0and。。,尸,2jV27实验结果如表3.6和图3.7所不,,//T-T从表3.4和3.6中可看到rirainin算法后,分类器的性能有很明显的提,使用g-Tra升。这也表明Triining算法可W有效的利用未标注数据提升分类器的性能。原因和方--22 大连理工大学硕±学位论文一一-法介绍时致。Tr,且不需要满足充分冗余视图iTraining方法可W获得个满意的结果的约束和训练过程中对监督学习方法的使用约束。除此之外,当H个分类器不管是用集成方法1还是使用集成方法2集成,分类器的F值和AUC值都能得到提升。此外,通过比较表3.5和表3.6的实验结果,我们不难发现,在大多数情况下,Tr-于Co--iTraininTrainin于TriTrainin,g的性能要优g,原因在g使用了;个分类器不仅解决了样本标注置信度问题,而且H个分类器使用集成方法可提升分类器的准确率和泛化能力。--3.6TrT表使用irainhg方法在疾病病症测试集上的结果-whh-m.TrsuobnedTrTrannneea化mTab.36heeltstaiiiigo化dissesyp化StsetP%)R(%)F(%)AUC(%)(83.00.08815188特征核80..8077.7485.9481图核.6389.80574.14713076树核.389..00集成方法179.7987.8983.6491.5727955582.6475集成方法.938.90.,..*人古v^'.和考夺哈一,'!公合合令冷舍合冷旁々令金―^養^".抽..杨戶一々一:公钱合1巧]MI:塞I霉--.,2j^j私'吝吝."5ibefi阳.".".i?:—-—兰s*I*64k—..?h,1——二二12T.—A0369UIS!S2124270J6912玉S18iii274法化次巧泣化次沒图37--Trann.在疾病病症测试集上Triiig方法的性能变化F--mmi.7ThTriTraininerformancen化edis;eg.3egposeaseyp化lstset3.4疾病与治疗物质模型表3.7表示使用SVM分类器分别在特征核、图核和树核上使用初始的病症与治疗物质的训练集训练出来的模型的性能。-23- 基于半监督和深度学习的生物实体关系抽取表3.7在初始病症与治疗物质测试集上的实验结果T-ab.3.7Theinitialresultsontihesymptomtherapeuticsub訂ance化巧setP%)R(%F%AUC()()(%)特征核79.3090.7684.6487.90图核76.2790.3682.7287.30树核68.9082.7375.187乂9415.9911354集成方法7化8.87.59集成方法277.8194.3885.3088.9434-.1CoTraining.实验结果与分析-实验中把特征集合分成了王个视图,分别是特征核,rainin,图核和树核在使用CoTg===方法的实验中,把实验分成了H姐,w,H组实验的参数相同w4000300?50。,实验,;中针对不同视图组合选取的迭代次数不同,分别为27263.8,和9。实验结果如表所示,迭代过程中分类器性能变化如图3.8,3.9和3.10所示。3-症-表.8使用CoTraining方法在病治疗物质测试集上的结果*--T..T化iab38heies山tsinwithcrninon化esm化mheraiobedotagyteutcsubs化nee化StS巧pp ̄〇〇〇P/〇民/F视图沮合OT()(〇)(%)AUC(/〇) ̄特征核^8^化几^:女^^化特化核与图核图核71.519义8082.9786.44特征核78.7293.5785.5188.51化特征核与树核树核67.1397.5979.5481.7574.1495.5883.5187.71赚与树核树核67.8294.7879.0680.14''?冷?'.今.夺々合々々合.的'...々々皆々伞令?‘令舍於兮.命?'々令々々令々令々冷?夺々今?夺命"?21化W?2;80.*.篇运8:81^I'1余^?々巧泣較'.S怯態.巧III74,。〇3C912巧1871M巧公369口1518212427獲巧&抜塔化茂巧图3.8在特征核和图核上分类器的性能曲线Fi.3.8Performancecurveoftheclassifiersonfeaturekernelandrahkernelggp-24--i 大连理工大学硕±学位论文!?始;巧I]|'令今令夺冷’''??.,今々'?.奋'々^.'夺公々.舍备*^?"..A?令''■■*命々々'?'■々*令啼夺々-■々运?令个令夺^於々々吟M::87粗‘■'―-■■^;:玄::5!::曲M■.量^g<f。re..'.■?悼坟一料iJ74巧4〇2C81012;416182石23242602J凸81012U16】S20222426这化扣:孜达化A巧图3.9在特征核和树核上分类器的性能曲线Fi.3.9PerformancecurveofclassersoneatureelandreekeelgtheififkrnetrnM;。,基—空;执...'.8*■.*這;琴;:r-吉口,:;":。:;. ̄ ̄,..',,s ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄.■■—阳找I.^3"—,々01234占67890123456789沒化决没.>玄巧化圾31图.0在图核和树核上分类器的性能曲线F.1rrmrveocassersonGraerneandreeerneig3.0Pefoancecufthelifiphkltkl-从这些数据中我们可w得到和疾病病症实验中相同的结论。在大多数情况下,o-raCTining方法可W提高分类器的性能,然而伴随着未标注语料的加入,噪音数据也会被引入,进而造成性能提升不稳定的情况。34-.2iii.TrTranng实验结果与分析-Tra二w===实验中inin,W4000300产1000and7V27。,Trig的参数设置如下,,,只?,戶实验结果如表3.9和图3.11所示。--表3.9使用TrTranniiig方法在病症治疗物质测试上的结果*--T39ThereswiablthTriTiinin化heraeuicsubanceS..utsagonesymp化mtptst化tset ̄〇P(%)R(%)F(/〇)AUC(%)特征核78^^93.5785.6688.94图核74.3197.5984.3787.7868.19树核.0194.787981.1074.1288集成方法1.7798.808508.275>1集成方法.62S8.3985.589.13-25- 基于半监督和深度学习的生物实体关系抽取M.■Mf1一*"?—一.一"????**? ̄ ̄秦啼不3节矿亦《I三之4M'王啦幸?典阵J玉去二M..82^否"SI ̄-?.S的...?,}扣>■"-*--**—?=__一^一|?,。ifsn質-巧■??的!p-nKAA??*;*4iif!:{\一-ga..jJj ̄-"… ̄ ̄ ̄……一一74_--■.巧货^ie?孜巧14Uii20S了4iS巧1214巧巧埋化决巧迭化决投--3.U治疗物质测试集上TrTra图在病症iinhg的结果*--Fi.311Thres山fTriTiaminonmmtheraeuticsubstance化Stset.e化og化es化gyppTri-Trann3,通过比较表.7和表3.9,使用iig方法后分类器的性能显著提升,再次验证了该方法的效果,同时当H个分类器レッ4:4:2的比例集成时,AUC值获得了最好的结果。比较Co-Tra-inin和TriTrainin,gg两种方法的实验结果,很容易发现在大多数情况一-T-ranno-Tranin,下,riTiig方法优于Cig方法这也和疾病病症语料集上的结果致。主-Tra-要原因是Triining的效率和泛化能力比CoTraining高。3.5实验结果与分析---上训练使用CoTraTiTanki,得到了疾病ining和rrig方法在两个语料集病症模型和L-i,,a病症与治疗物质模型。从实验结果中可:>看出在初始训练集少的情况下CoTriningr-和TiTraining两种方法都能利用未标注语料来提升分类器的性能。在大多数情况下,-Tr-于Co-TiTraining的效果要优raining。通过比较两个语料集上的实验结果,在疾病病-症模型上性能的提升效果要优于病症治疗物质模型上提升的效果,主要有。分析原因一-两个方面。是在两个语料上初始分类器的性能差距很大,在病症治疗物质语料集上,o-TnT-Tai初始分类器性能偏高,在使用Crainig和ririnhg算,性能提升的空间相对较小法训练后很难有很大的提升,。二是算法在迭代的过程中,加入未标注语料扩充训练集为训练集引入了新的分类信息,从而可レッ提升分类器的召回率,而在此过程中,噪音数据的引入会降低分类器的准确率。在初始训练集上分类器的准确率越高则在迭代过程中引入的噪音数据相对较低,性能提升越明显,。对比两个训练集上的初始分类器的性能--病症语料集上在疾病病症语料集上初始分类器的准确率偏高。因此在疾病,使用--TaCoTraining和Tririning方法分类器的性能提升明显。-26- 大连理工大学硕古学位论文--综上所述,TriTraining方法比CoTraining更具有稳定性。在初始训练集小的情况下,使用这两种方法利用未标注语料都可提升训练效果。而且在初始训练集上分类器的准确率越高,在迭代过程中引入的噪音就越少,使用运两种方法提升结果的可能性就越大。3.6本章小结疾病-病症模型和病症-治疗物质模型的训练对今盾疾病-治疗物质的提取有着重要的意义,,。当前相关语料集的匿乏很难训练模型。为了解决这个问题我们首先人工标-病症语料集和病症-治疗物质语料集注两个语料集,疾病。然后使用半监督学习方法在-Tra初始训练集规模很小的情况下利用未标注语料集来提升分类器的性能。使用CoiningT-ar,,和iTrinin的方法结合特征核、树核和图核这H个不同的方法抽取疾病与病症g病症与治疗物质之间的关系,,对,最终取得了很好的结果。此外我们的实验结果表明一步提升分类器的性能-T不同和方法的集成也能进,而且本章的实验中,Triraining的方-Tra法要优于Coining。一在今后的工作中,方面,我们将研究更多的半监督学习方法,W更好地利用海量的生物医学文献资源一。另方面,我们将实验中训练出来的疾病与病症和病症与药物这,发现特定疾病的潜在治疗药物两种模型用于疾病和药物的知识发现。-2-7 基于半监督和深度学习的生物实体关系抽取-4基于卷积神经网络的疾病病症和病症-治疗物质的关系抽取随着生物医学技术的飞速发展,公开发表的生物医学文章和研巧成果W及由此带来的潜在的生物医学知识正^文飞快的速度递增。生物医学文献中有很多关于疾病、病症与治疗物质的信息。这些信息可[^用于生物医学关系网络的构建W及药物的研发等。对研究生物过程具有重要的意义。第H章介绍的疾病-病症和病症-治疗物质关系抽取方法用于解决初始标注语料缺乏-T-的问题,该方法使用Coraining和TriTraining两个半监督学习方法在少量标注数据集上使用未标注数据辅助训练--治疗物质模。最终得到了两个模型,疾病病症模型和病症型。然而由于训练过程中使用了传统。实验证明通过使用未标注语料可W提升模型性能的一一SVM分类器。方面导致核函数的选取对模型的性能影响很大。另方面需要人工构造大量特征一一。这些因素导致在定程度上加大了研究的成本。因此本章提出了种基于卷积神经网络的方法进行疾病-病症和病症-治疗物质的关系抽取。在关系抽取中需要结合语义和句子层面的信息,在本章我们使用了卷积神经网络的--方法在句子层面和语义级别上进行疾病病症和病症治疗物质的关系抽取,使用。首先Word2vec工具包在所有的语料集上训练词向量。所有的单词都W词向量形式表示。其次在语料集上使用句子级别的特征作为卷积的输入,训练网络,在语料集上。与此同时,使用语义级别的特征作为卷积网络的输入训练网络,这两个网络采用相同的卷积核。将两个网络的输出通过不同的权重叠加作为抽取的特征。最终将抽取的特征向量作为标准神经网络的输入进行模型训练。4.1特征选择在本章中,单词最终都使用词向量表示,。词向量是在各自的语料上学习得到词向,因此在词向量中包含少量的未标注语料的信息量的训练中包含未标注语料。同时本文,训练方法和词向量相同的位置信息也是用向量的形式表示。本章所使用的特征主要有句子特征和语义特征。4.1.1句子特征句子特征是把整个句子作为输入,句子中的单词用词向量表示。其中句子特征由单词和单词的位置特征组成。(1)单词特征:分布式假设理论表明,在相同上下文出现的单词趋向于有相同的一含义。为了利用这假设,在卷积的过程中采用不同的窗口进行卷积,最终把卷积之后-28- 大连理工大学硕±学位论文'的结果拼接起来。如句子5有n个单词组成,则可表示为片aJc/;C2...;c。_/其中;c,表,,,},示5中的第/个单词。句子中的单词特征可W用:C,表示。(2)位置特征:位置特征是单词在句子中相对于两个实体之间的距离,表示为当前单词的位置与实体位置么间的差值。位置信息可W间接的表示单词在实体关系抽取中一的重要程度,距离两个实体较远的单词,在实体关系抽取中作用小,重要性低。个单一,用成皮表示个实体的距离,词具有两个位置信息,。灰表示单词与第灰表示单词与第二个实体的距离=。故句子S中第;个单词的位置特征可表示为公,[成皮]在句子特征,,中,位置特征信息主要是追加到单词特征后面,作为卷积神经网络训练的输入。’=结合句子中的单词特征和位置特征!x。故,句子中第个单词可表示为W,,坊,[]=eeWW-,句子S的句子特征可表示为F机於…似{ft,。/}其中S中包含M个单词,在训练过程中,单词特征和位置特征都词向量的形式表示。41..2语义特征语义特征为关系抽取提供了很重要的特征,本章选取的语义信息主要包含句子片段特征和两个实体间最短路径特征。(1)片段特征;片段特征是由句子中两个实体的名称和两个实体之间的单词姐成。.听_片段持征中包含的单词更能突出实体之间的关系。表示为似听.,听,/,,}其中S表示在句子S中长度为5的片段,片段持征中包含的单词个数为W表示单词向量与距离向量的拼接,此处距离向量全部用0填充,目的是保持与句子特征中组成单词的向量的长度。(2)最短路径特征:最短路径特征主要是由GDep解析句子,获得依存关系,通过依存关系找到两个实体之间的最短路径。选择最短路径上的单词作为最短路径特征。如图4.1表示句子S的依存图:VMODENTRY1,ENTRY,interactedwithENTRY2V/V>、y\/NMODsUBPMOD图4.1句子的依存图F..Dig41ependencyrahofasentenceSgp通过NMOD(ENT民Yl,ENT民Y)、SUB(ENT民Y,interac化d)、VMOD(iMerac化d,wi化)和PMODwhhENTRY2一个ENT民Y找到1(实体1)到ENT民Y2(实体2)的最短(,),-29- 基于半监督和深度学习的生物实体关系抽取路径。使用最短路径上的单词作为最短路径特征。因此句子S的最短路径特征可表示为=ENTRY1ENT民Yinterac化dwi也ENT民Y2。最短路径特征表示为0庐似取,,,{化而(,,}...狀_/》7表示在句子5中最短路径的长度,最短路径特征包含的单词个数为昕,,,。}其中,m,W表示单词向量与距离向量的拼接,此处距离向量全部用0填充。,在文中用iex0语义特征可表示为片段特征和最短路径的拼接巧巧,八巧)})表示,主要是为了和句子特征中单词表示相同,且在此。在语义特征中引入的位置特征使用的位置特征的向量全部采用0填充。42.实验方法一实验采用卷积神经网络的架构,通过个相同的卷积神经网络,把两个输入特征集一。组合在起。实验中所采用的网络架构如图4.2所示…;化:IIIIIIIITlI||I「1"二二二二二二二==二享8-;呈三三三三三三或!::-、_?Xn11\V、'、L-*\為_—口?单词词向里位盖向里乂勺——''..'‘■W....4k//?参--rImil.’l-rHrrrri概IIIf二二二=二=二二二受I;^8/......兰三EE三三.:],flIII11"11tI单简词向重位舌向童卷巧层MaxPooh巧诗证向里合成标巧巧经网络42图.卷积神经网络的架构F.4.2TrrluionlNralNetwoicighefamewok〇nheConvotaeu,在图4.2中,句子特征和语义特征同时使用相同的卷积核进行卷积即两个卷积神经网络共用卷积核。在语义特征中,距离向量全部用0填充。图中所有词向量为V0ca6wc,_■其中如表示语料集中单词的个数,5表示词向量的长度。位置特征的xd一词向量为献vec况於。其中属于位置特征的个数,^表巧个位置向量的,_长度。卷积核为W,则其中W表示卷积核的个数,《表示卷积核的宽度。-30- 大连理工大学硕±学位论文句子特征的输入为Fee倘,Fee倘其中是所有语料集和语义特征集中最大长度。语义特征的输入为£份:巧),Zex巧)句子集特征经过卷积后得到向量0_vec巧),0_vec倘。语义特征经过卷积后得到向量0似:,_巧)经过Maxpooling层之后,两个特征集的输入分别为/!vec_W"I和巧M也们都属于长度为ixw的向量。最终特征向量表之居欠示为式。计算公式如下:Z二Wmul(hshvec+mulhWIh!exS(1,,4.)__巧y)(__())XW是学习的参数"',/i其中/i_Wf如。wm/函数表示对应位置相乘。在得到之后,_.2后面连接标准的神经网络。从图4中也可W看出,我们使用了不同大小的卷积核进行实验。在训练过程中,通过反向传播W,我们可liU川练的参数有:况vecL,,/tWsAW/化及标准神经网络中的参数。_,_,4.3实验结果及分析4.31.语料介绍实验中所有语料均来自第H章中的疾病-病症和病症-治疗物质语料集。由于人工标,注的语料集规模比较小而在训练的过程中网络的参数比较多,在少量的语料集上无法---训练出来很好的参数,因此利用第H章TriTraining训练疾病病症和病症治疗物质送两个模型时加入的未标注数据。我们把添加的这些未标注语料加入到原有的标注语料集中,作为本章的语料集。语料集的详细信息如表4.1所示。添加进来的语料存在标注错误的可能。表4.1两个语料集的详细信息Tab.4.1Thede巧iIsoftwocororap ̄ ̄ ̄ ̄TY-语料集原有训练集测试集iTrainin方法获取的语料最终训练集g-疾病病症^4^2^病症-治疗物质600500145020504.3.2实验设置实验中使用了H种不同的卷积核,它们的卷积宽度不同,主要目的是为了通过卷积获得不同大小的上下文信息,在经过MaxPool之后,把H种不同卷积核的输出拼接在一起作为两个特征集的卷积输出一。同时文中采用的标准神经网络包含个隐藏层,即在-31- 基于半监督和深度学习的生物实体关系抽取一最终的向量合成之后,经过个隐藏层之后进行分类。在两个语料集上网络参数详细信息如表4.2所示。表4.2实验中所使用的参数T*ab.4.2eraiametersusednourexerimenHyppipts语料集词向量长度位置向量长度卷积核大小隐层节点的个数-2^疾病病症^100X345X260^,,{}-200病症治疗物质10100X345X220300{,,}神经网络训练过程中动态的调整词向量和位置向量的值一方面因为在训练这两种。向量时,,所采用的训练语料比较少都是在各自的语料集(所有未标注和标注语料集)上训练得到的一一,训练出来的向量存在些不足。另方面,在训练过程中调整词向量和,促使运两种向量为这个任务而存在位置向量能更好地使他们满足分类的任务。同时在训练中学习爬和AW7,更好的把两个特征集融合起来。_实验的评价指标准确率,F,,召回率值和AUC值主要的对比实验是和第王章中-Tran-使用Coiing和TriTrainin获得最好结果对比。g4-.33.疾病病症模型-在疾病病症语料集上,通过训练卷积神经网络训练,对测试集进行测试,最终的实验结果如表4.3所示。同时表4.3中也包含着第H章的初始训练集上集成方法2和-TriTranno-rannH章中最好的结果.同时iig训练中集成方法1的结果。CTiig方法采用第WSj-采用Zen等人提出的抽取方法在疾病病症语料集上训练,结果如表4g.3所示。4-表.3疾病病症测试集上实验结果对比Ta-mmb.4.3Comarisonwith化eresultondseasesSsepiyp化化ttP(%)R(%)F(%)AUC(%)初始训练集9^60.5589.74o-Trann86C.06277.1588.51iig方法的冷Tr-Trann79巧.797.893641iiig方法88.9?Zeng[45]79.0382.4280.6990.38本章方法89.0976.5682.3591.56-由表4,,虽然没有TriTrainin.3可W看出本章的方法取得了很好的实验结果g的结T-T-果好,但相对于riraining中单个分类器而言,本章方法己经超过TriTraining中单个-32- 大连理工大学硕±学位论文分类器提升的性能。与Zeng等人提出的关系抽取方法结果相比,本文的方法取得了较高的结果一一,方面是因为本文在所用的特征中加入了最短依存路径信息另方面,本文;在进行特征融合时考虑了特征权重的问题,Zeng等人加入了传统特征,经过神经网络训练后选择简单的拼接,这样会导致很多特征兀余,而且在这样进行简单的拼接也会间接的降低某些特征的重要性。-4.3.4病症治疗物质模型-治疗物质语料集上在病症,通过训练卷积神经网络训练,对测试集进行测试,最终的实验结果如表4.4所示。同时表4.4中也包含着第H章的初始训练集上集成方法2-练中集成方法2的结果-和TriTraining训。同样CoTraining方法采用第王章中最好的结45[]-果.同时采用Zeng等人提出的抽取方法在病症治疗物质语料集上进行训练,结果如表4.4所示。4-表.4病症治疗物质测试集上实验结果对比Tmm-ab.4.4Comparisonwith比eresultonsyp化therape山icsubs化nee化StsetP(%)R(%)F(%)AUC(%)初始训练集74.3885.3088^9.94-CoTraninl&.Tl.57.51ig方法9385.5188-TrTr75.62..1.13iaining方法983985589Zeng[45]77.5295.5885.6191.46820891.97864本章方法..791.73-,由表4.4可看出本章方法在疾病治疗物质模型实验上取得了最好的结果,再次说明本章方法的有效性。4.3.5结果分析本章的方法在两个语料集上进行了实验,取得了很好的实验结果。在初始语料集规T-模很小的情况下,使用riTraining的方法对标注语料集进行扩充。然后通过卷积神经网络模型进行训练,省去了很多特征工程的构建工作,而且还可W提升模型的训练结果。一-iTrainin比可,,通过两组实验中本章的方法和Trg方法的对1^看出在定程度上本章-Tra-的方法可在Triining的基础上提升模型的性能。而在疾病病症模型上,本节方法Tr-T弱于iraining的方法的可能原因在于,该语料集中加入了大量的未标注信息,这些^-未标注语料存在噪音,而采用集成方法可心减少噪音的影响。尽管在病症治疗物质语--33 基于半监督和深度学习的生物实体关系抽取-料集上也存在噪音问题,但加入的未标注语料的数量相对疾病病症语料集的少。相对-Tra-于Triining的单个分类器的提升,本章的方法优于TriTraining方法。本章的方法在两个语料集上都优于Zeng等人所提出的卷积神经网络进行关系抽取一的方法,方面是本文加入了依存路径上的最短路径信息,这样能更好的表达两个实体一方面本文在进行特征融合时,之间的关系;另,考虑了不同特征之间的差异性采用了不同的权重进行融合,突出重要特征的作用。4.4本章小结本节主要利用卷积神经网络模型,,把句子特征和语义特征通过不同的权重相结合最后将获得的特征向量用于关系抽取,。在初始标注语料集的数量少的情况下该方法结-Tra合Triining方法对语料进行扩充,然后把扩充后的语料用本章方法进行训练。这在一定程度上减少了特征工程的构建-Tainin,同时也间接的证明了在使用Trirg方法的实验中加入未标注语料的有效性。一同时本章使用的词向量也是在所有语料集上训练得到的,本身就包含些未标注语一料中的信息,也间接的利用了未标注语料信息,下步的工作是研究深度学习框架直接-利用未标注语料进行模型训练-。把训练好的疾病病症和病症治疗物质模型应用到疾病与药物的发现中。-34- 大连理工大学硕±学位论文5基于改进Tr-iTraining方法的蛋白质关系抽取随着生物医学技术的飞速发展,生物医学研巧成果和医学论文献数量也在快速的増长,要从大量的生物文献中获取所需要的信息越来越艰难。蛋白质关系抽取是生物医学一信息抽取的个非常重要的组成部分,具有广阔的应用场景,它可W被广泛应用于蛋白质信息网络的构建、蛋白质关系的预测及药物的研发等。-Tra--inTT第H章中使用两个半监督学习方法,Coing和riraining方法,训练疾病-病症模型和病症,最终获得了很不错的结果治疗物质模型。但是在训练过程中存在两一:个主要的问题第个问题是在使用半监督学习方法训练过程中,分类器会对未标注数据集进行标注,然后选择标注置信度高的样本集加入到训练集中,在此过程中可能会引入噪音数据,即标注错误的样本被加入到训练集中。第二个问题是在对未标注语料集进行标注后,所选取的未标注样本集问题,在半监督学习方法的训练中为了降低噪音数据一的引入,所引入的数据都是标注置信度高的语料,而从理论上讲,那些标注不致的样,对分类器的提升将会有更大的帮助本被正确标注后加入训练集。针对第H章使用半监督学习方法中面临的两个问题,本章在致力于解决这两个问题Tr-T的基础上使用iraining算法进行蛋白质关系抽取。主要是使用主动学习方法将选取的标注最不一致的未标注语料进行人工标注后加入到训练集中,这样既解决了训练过程一中噪音数据的引入,同时能更好的利用分类器所欠缺的些信息。这些信息的加入能更好的提升分类器的性能。5.1特征选择蛋白质关系抽取采用的特征选取的方法与第H章中疾病-病症和病症-治疗物质关系抽取的特征选取的方法相同,所选择的特征集都是特征核,树核和图核。不过特征核的选取中所使用交互词不同,。在进行特征选择时使用基于文档频率的特征选择方法最终选择特征8000个。5.2算法设计-Tra本章使用半监督学习方法中的Trinin,ig的方法进行蛋白质关系抽取针对-题-TriTraining迭代过程中遇到的问,本章提出了扣Training和主动学习相结合的方法。在传统有监督的机器学习中需要大量的标注语料集进行训练分类器模型,然后再使用训练好的模型对未标法的语料集进行分类,。当训练的语料存在严重不足时我们需要人工-3-5 基于半腔督和深度学习的生物实体关系抽取去标注数据集,然而由于标注语料集代价非常昂贵,而且既费时又费力,批量的人工标注语料显然是不现实的。因此我们采用了主动学习的方法进行未标注语料的标注。主动学习的核屯、思想是:不断的从未标注语料集中选取信息量丰富的语料,然后将这些语料交给专家进行人工标注,把标注后的语料集加入到训练集中,在新的训练集上重新进行实验。主要的目的是W最少的标注语料获得最佳的实验效果。-迭代过程中本文中在TriTraining,在对未标注语料进行选取时,采用主动学习的思想一,即选取兰个分类器标注不致的未标注语料集,然后进行人工标注,最后把标注的结果加入到训练集中,。在进行测试阶段使用兰个分类器进行集成。本文主要的算法流程如图5.1所示。^ViewV,ew2e^Lyi\^(^^|-'VewlN.Viewsirr^為mmmm臟^i1^zw类器<^了讲娜里4YJi ̄ ̄略jResultN?逸跡爲不来碗—_…JI涅巧是.Ai榻iJSL图5.1算法框架'mFig.5.1Frameworkofalgori化本章所提出的算法的流程如图5.1所示,在使用该算法进行迭代过程中,要不断的一加入未标注语料集,训练停止条件是:达到定的训练次数或者是所有的未标注的语料集被完全标注。-36- 大连理工大学硕女学位论文5.3实验结果及分析5.31.语料介绍蛋白质关系抽取中常用的五种公共评测数据集分别是AIMEDioInfer、HPRD50、、B圧PA和LLL。送些语料集都是相关领域专家标注而成。所有的语料集都包含着很多句子。所有的句子都明确的标明存在的实体名称,实体的位置,W及实体之间是否存在关系,。本章主要使用的语料是AIMED语料集其他四组语料集被使用时充当未标注语料集。下面详细介绍AIMED语料集。AIMED语料集中收纳了225篇PubMed摘要,这些摘要中所包含的蛋白质对都使用蛋白质互作用数据库(DatabaseofInteractinProteinDIP),g,进行了筛选然后经过该领域专家人±的标注,。最终形成了AIMED语料集该语料集中的标注蛋白质对有些是存在关系的,也有些是不存在关系的。表5.1是所有语料集的详细信息。表5.1语料集的详细信息Tab.5.1Thedetailofcorpora语料集句子数实例数正例数负例数AIMED5^4^Bioinfer1100892124376484HPRD50145433163270圧PA邮6817335482LLL773301641665.3.2实验流程一组实验本章的实验主要由两组实验组成,第,所有的数据都是来自AIMED语料,一即训练集、测试集和未标注语料集都来自于AIMED语料集。送部分是为了比较在初T-T始训练集大小不同的情况下,使用改进后的riraining方法后模型提升之间的差异,实验中选取了八组不同大小的训练集。首先把AIMED语料按照句子级别划分成十份(存一2一在个句子包含很多实例,如图.1,每次交叉验证中留份作为测试集,把其余的九份划分为训练集和未标注语料集,:。剩余九份划分成八组情况所选的策略为九份中任一份二意其中的、份、H份、四份、五份、六份、走份、八份作为初始训练集。剩下的作为未标记样本集。八组初始化训练集对应的样本个数为:500,1000,1500,2000,2500,300035004000。Tr-Tii。iranng方法第二组,,实验中所用的对比试验是跟没有进行改进的IMED实验,所有的训练集和测试集都来自于A语料,未标注语料来自其余的四个语料-3-7 基于半监督和深度学习的生物实体关系抽取Tr-VM集iTraining的方法的性能。试验中采用S进行不同视。主要目的是验证改进后的::2(;图上的模型训练,H个视图上的分类器W44特征核。在半监督学习的迭代过程中)图核;树核的比例进行集成。5.3.3结果分析一(1)第组试验5,其中正常训练是指只使图.2显示了在初始训练集大小不同的情况下的实验结果用初始训练数据训练出来的结果。07:.0,1-.0.650..…-0.60…,命/一正常別练:‘■本义方法0’4f〇〇100015002000巧003000巧004000初她圳练樂数離图5.2不同初始训练集下的实验结果imsuunderriniialiinsetFig.5.2ExperentreltsdiffeentttrangT-5,由图.2可^式看出,基于riTraining的半监督学习方法在初始训练集相同的情况下加入未标记样本可W提升训练结果,同时在初始化训练集的大小不同的情况下,未标记一些差异500 ̄样本的加入对实验结果的提升存在。初始训练集数量在1500之间时结果?2500之后,F值提升不提高的效果不如15002500之间的好,在初始训练集数量超过一L,明显Jl:是前期的初始训练集数量很少训练。这种趋势存在的原因包括:下几个方面出来的分类器准确率很低导致加入的未标记样本时引入了很多的噪音,这些噪音数据的二是当初始训练集在?15002500之引入对分类器产生了很大的干扰,影响了实验结果;F^,间时,训练出来的分类器值在55%文上,未标记样本的标注准确率有了很大的提高2500后,,实验结果F值提升明显引入的噪音相对减少;H是当初始训练集数量大于--38 大连理工大学硕±学位论文实验结果提升不明显,因为未标记样本很少,在迭代过程中加入到训练集中的未标记样本个数也很少,所W对实验结果的影响不大。在使用本章的方法训练时,前期实验结果提升的比较明显,随着初始训练语料的增力口,训练结果性能的提升不再明显。造成这些现象的原因如下。在初始化训练集很少的情况下,学习出来的分类器性能很差,此时分类器对未标注样本的准确率很低,在经过选择标注差异性大的样本经过人工标注加入到训练集中,分类器的性能会有很大的提,且此时未标注语料集也是很大的升。随着初始训练集的数量的增加,未标注语料集的数量相对减少。而且在初始训练集上学习得到的分类器性能随着初始训练语料集的增长越来越好,此时分类器对未标注语料集进行标注存在的差异也会降低。相对选取的未标,加入到训练集中的未标注语料的数量也会降低注语料集也很少,因此当初始训练集数一定量时,加入未标注语料集对实验结果影响不大量达到。初始训练集的数量不同时,未标记样本的数量也不相同,所W实验根据不同的初始训练集选择不同的迭代次数。本章选取四组初始训练集不同的实验结果进行分析,图5.3-Ta器性能的变化表示使用Tririnin方法训练时。图g,迭代过程中分类5.4表示使用改进-an后的扣打iing方法训练时。,迭代过程中分类器性能的变化。."-—I0.5巧..广I1广I。棚:f\/'讚。;.。、:V:户若0八\.J卢少旷、'.'-V"分C.化5.fN:^墅故&脚.‘.!蕾、:^:/丫(UW?令,々兔M化./,ff。.*阳//而T京"為东祐赢/;,占^扁而麻呵Ir石"色 ̄32468抚12!42465101?忠化次巧这巧茂哲。乂巧々獻I110々巧?崇?■?’,>"?、’?\/令、〇64?;/,。…-:、,./‘。.'?4。-C;。/f\气、°'"’.'"-■■::墅声/、:\/f:7Z\t又:'?'?、扫.《0*/>(,.'、;任,巧寒'令.C.M2//;6.*化/;0*0?/,^化脚,…。.",务々巧始沉棘招品々A‘坊化刹给策wIfooj|lOSM.*^巧2j246a阳1214^J34?8j5i边巧次技延巧A效5-图.3TriTraining实验中分类器的性能曲线F5T-mi..3heerformancecurveofdieclassifiersusedTrTrtgiainingehodp-39- 基于半监督和深度学习的生物实体关系抽取〇60'■..。4?5(|、、声、0怎。/.。巧S、一合0巧5''■。'5。—/。*、>、/OW安/爱O.S巧/巧&WS-戶卢。伽/:0.的5/又巧0...。/令々衍曲巧■f扭t^〇〇心令巧化捐练化1册〇/I|.分I|a":S" ̄ ̄'〇246810121434£8〇1i拓4注化次巧沒化次巧CW0A巧:ij1JI06C8..。—会''秘、/、/^0M.0/..::;\/也A"'分立喊^^'卢、/:/卢、?:令;*M化0.M3,歹//?.644!/C.606參0.M0舍/./。.6巧/々'.I保波巧册;;而7知振的〇々巧扣V!右|I护|说3。.5〇C,026810124C2356789?114进化次沒逆代;X巧54-图iTrainin.使用改进的Trg方法的实验中分类器的性能曲线Kerformancecurveof-meg.5.4The化eclassifierisaimprovementTriTraininthodpgL5J从图.3中可:>看出,随着迭代次数的增加,未标注语料被加入到训练集中,F值一一些局部迭代过程中F值出现波动情况都有定的提升,出现这种现象的原因。然而在一主要有两个方面,第,在迭代过程中,未标注语料的引入扩充了训练集,为分类提供了新的信息,提高了分类器的分类结果。第二,未标注样本被加入到训练集,也间接的引入了噪音样本,随着迭代次数的增加,噪音数据也在逐渐累积。噪音数据严重干扰了分类器的分类结果,造成实验中F值的波动。-从图5,riTrainin.4中可看出在使用本文改进的Tg方法中,F值随着迭代次数的一二增加有明显的上升。主要原因有:是消除了噪音数据的引入是在选取未标注数据;时选择分类器标注差异性大的样本,这些样本经过人工标注后加入到训练集中,可W提升分类器性能。2-且在迭从图5.5.35.41,iTrainin,和中可:^看出本章的方法要优于Trg的方法,而-代过程中,使用本章的方法得到的分类器的F值变化比使用TrraininiTg方法得到的分类器要稳定。(2)第二组试验-40- 大连理工大学硕±学位论文-实验中选取其他四组语料集当作未标注语料集,使用改进后的TriTraining方法训练时,迭代过程中分类器性能变化如图5.5所示。从图5.5可^文看出,本章的方法使用其他的语料作为未标注语料进行训练时,F值一从整体上呈现上升的趋势,方面因为加入的语料集包含了初始语料中没有的信息。另一方面添加的未标注语料集中不包含噪音数据。因此实验中添加未标注数据可提升实验结果。0.11巧2,110'.683'0..乂.684^^0.6S0;*....^^hr片i072■-6^:;;誦-义''\Ii\命參改进的r-TiTraining。抗2〇246810口14遮代次数图5.5改进方法的实验结果Fi.5xrrg.5Theeperimen化1esultsof化isimpovementme化od5.3.4与其他方法的性能对比表5.2不同方法性能么间的比较Tab.5.2Performancecomarisonbetweendifferentmethodsp实验方法拒确晕(而)吾面^(凉F值(%) ̄Ming[33]74J4^0J5钱伟中[3666.8061.2063.90]Yan1957.7270.0764.41g[]Tr-riTaining的方法63.4067.6065.80一.6067.23661本文的方法(第組实验)66.9本文的方法(第二组实验)73.3664.6068.80-4-1 基于半监督和深度学习的生物实体关系抽取表5,本章提出的基于.2是本章方法的实验结果与其他方法的实验结果的对比Tr-iTraining改进算法结合特征核、图核和树核进行蛋白质关系抽取。与监督学习相比,Yang等人中采用多核融合的方法,取得的实验结果F值64.41%,目前这种方法在进-行多核融合中取得效果最优。本章在此基础上采用了改进的TriTraining的方法取得了1较好的结果,原因有H点:()本文采用文档频率的方法选取特征,去除特征中的冗余信息,提高分类准确率2),。(在依存树中加入了谓词参数路径上的特征丰富了树核信息。(3)在训练过程中,利用未标注语料扩充训练集,为分类引入新的信息,去PW-除兀余采用联合训练(CoTrainin)的方法,取得实验。提高实验结果。钱伟中等人gF63--.9%CTCT结果值,与oraining方法相比,本文的方法优于oraining方法,原因在于本文的方法在选择未标注语料时选取的是分类器标注差异性最大的,然后人工标注后-加入训练集中,,消除了噪音数据的影响而且本文的方法是在TrTrainin基础上改进ig的,,使用H个分类器也增加了集成的效果。使用本文提出的方法进行的第二组实验和一一组实验对比,,第,第二组实验的结果要优于第组实验因为第二组实验在初始训练集上加入了更多的未标注语料集,,这些未标注语料经过人工标注加入到训练集中増加了更多的信息。5.4本章小结-上进行了改进本章在半监督学习方法TriTraining的基础,结合主动学习方法进行蛋白质关系抽取。这种方法用特征核、图核和树核H个不同的视图作为输入训练出H个一分类器,然后用H个分类器对未标记的语料进行标注,然后把标注不致的样本使用主动学习的方法进行人工标注后加入到训练集中。最后将H个分类器使用集成的方法集成一,这种方法在A,F在起对测试集进行预测IMED语料集上取得了很好的实验结果值达到68.80%。本章还有很多要改进的地方,如迭代次数的选取,本章中根据实验的方式选取迭代一一次数,费时费力,而且很难找到个合适的迭代次数,下步的工作是控制迭代的次数,找到迭代结束的条件。-42- 大连理工大学硕±学位论文结论近年来,随着生物医学文献的飞速发展,公开发表的生物医学论文和研究成果也越来越多。自动从生物医学文献中挖掘有用的信息也成为医学研究着获取知识的重要组成部分。生物医学信息抽取技术能够将非结构化的,无序的文本信息转换成研究人员易于查询和管理的有结构化的信息。生物实体的关系抽取有助于构建实体之间的语义关系并,最终使用人们容易理解的方法将关系网络显示出来形成关系网络。本文围绕生物医学中实体关系抽取,开展下研究:(1)半监督学习方法的实体关系抽取针对在特定领域内的实体关系抽取中存在的标注语料不足的问题,本文采用半监督学习的方法进行实体关系抽取。半监督学习的方法试图让分类器自己主动地对大量未标-n法样本进行标注W辅助少量的标注样本进行学习。本文第H章使用CoTrainig和Tr---iTrainin两个半监督学习方法进行疾病病症和病症治疗物质的关系抽取,即解决了g,,同时又提高了模型训练的效果我们标注语料少的问题。最后通过这两个模型的学习Tr-T可从进行疾病和治疗物质的发现。同时第五章在针对使用iraining方法训练时存在一-的两点不足,,是在TriTrainin练过程中引入噪音数据g训。二是在选取添加的未标一注数据时选取标注致的语料,这些语料为训练提供很少的信息,。为了解决这两个不足本文提出了半监督学习方法结合主动学习的方法进行生物医学文献中蛋白质关系抽取。实验结果表明该方法具有很好的效果。(2)深度学习方法的实体关系抽取使用半监督学习方法,不仅可W解决初始的标注语料集少的问题,同时可W提升模型的训练结果。但是在使用半监督学习方法进行生物实体关系抽取时,需要构建大量的恃征,这些特征构建的质量对实验结果影响很大。为了减少人王构建特征的复杂性,本文选取使用卷积神经网络的方法进行疾病-病症和病症-治疗物质的关系抽取。由于初始-,因此使用第章中的TrTrainin。标注语料集规模比较小ig方法进行语料集的扩充最T-T终通过实验证明了本文方法的有效性,同时也间接的也验证了riraining方法扩充得到的语料集的质量。本文所提出的方法在生物实体关系抽取中取得了理想的结果,在未来的研充工作--中,将应用本文所训练的疾病病症和病症治疗物质这两个模型进行疾病与治疗物质的一些集成学习的方法一挖掘之中,,W进。另外在未来的研究中可尝试步提升生物实体关系抽取的分类效果。--43 基于半监督和深度学习的生物实体关系抽取参考文献-[1HristovskiDPeterlinBMitchellJAetal.Usinliterbadi],,,gaturesedscoverytoidentifdiseasecandidateenes[J.Innaionalournalofmedicalyg]tertj-informatics2005742.):289298,,(Van—2PhansalkarSderSisHTuckerADetal.Drudruinteracionsld[],j,,ggtthatshou-benoninterrutiveinordertoreducealertfatiueinelectronichealthpgrecords.ournaloftheAmericanMedicalInformaticsAssociation201320:[J]J(3),,489-493.3BuiCKatrenkoSSPMA-[]Qloot.Ahbridaroachtoexroinrotein,,ypptractptep-interactions.Bioinformatics2011272日9.[J]:226日,,()4ZhuZYDonSJYuCLetal.AtexthbridclusterinalorithmbasedonHowNet[],g,,y呂呂semant-icsKeEniineerngMaterials.2011474:20712078.[口//yg,5BaderGDBetelDHogueCWV.BIND:thebiomolecularinteractionnetwork[],,-database.icacid11248[J]Nuclesresearch:250.,2003,3()目XenariosISalwinskiLDuanXal.DIPtheDatabaseofInteractin呂Proteins:[],,J,et,aresearchtoolforstudyingcellularnetworksofproteininteractions[J].Nucleicacsresearch30-1:03305.id200()3,么7K-ilicogluHShinDFiszmanMetal.SemMedDB:aPubMedscaleeositorof[],,,rpy-biomedicalsemanticpredications.Bioinformatics201228(23:31弓83160.[J],,)8GaoJDengLGamonMetal.Modelinginterestinnesswithdeeneuralnetworks:[],,,gpU--.S.Patent201501363688.20151217.,,,[門9HillFChoKKorhonenA.LearninDistributedReresentationsofSentencesfrom[],,gp'UnlabelledData.ErintArXiv20161602.03483.[J]p,,-lOohnsonRZhan呂T.SemisuervisedConvolutionalNeuralNetworksforText[jJ,pCateorizationviaReionEmbeddinCAdvanceinNeuralInformaiPiggg[]//stonrocessngsems-Syt.2015:919927.ea-[lljBunescuRMooneamaniAtl.Integratingcooccurrencestatisticswith,yR,R,informationextractionforrobustretrievalofproteininteractionsfromMedlineC//ProceedingsoftheWorkshoonLink!打NaturalLanuaeProcessinand[]pggg呂Biology:TowardsDeeperBiologicalLiteratureAnalysis.Associationfor-ComputationalLinguistics2006:4956.,-12HuanMZhuXHaoYeta.Dscoverinansoexracronroten[]g,,,ligpttertttpteipi-interactionsfromfulltexts.Bioinformatics20042018:36043612.[J],,()-44- 大连理工大学硕女学位论文13BlaschkeCAndradeMAOuzounisCetal.AutomaticExtractionofBiolical[],,,ognformamS-ItionfrocientificText:ProteinProteinInteractionsPrcIntConf[C]//o-IntellSystMolBiol1999:607.,-14ZweigenbaumPDemnerFushmanDYuHetal.Frontiersofbiomedicaltextminin:[],,,grore—currentp呂ss[J].Briefin呂sinbioinformatics20078(弓):3弓8375.,,-15YenYTChenBChiuHWetal.DeveloinanNLPandIRbasedAlorithmfor[],,,pgg--AnalyzinGenediseaseRelationhis.MInfMed200645s^]ethods:3219.gp,,-16HuangMZhuXHaoYetal.Discoverinrnroteinroin[],,,gpattestoextractppteinracf-tetionsfromulltex.informati200420(18)ts[J]Biocs:36043612.,,17ThanidisI.Stvectchinelearninfinrde[]soctarupporormagortependentandstructuredoututaces[M.Brownniversit2005.psp]Uy,18iaZhouGi-]XoJSuJetal.Protenroteinnteractionextraction:asurvised[,,,pipe-1earningapproach[C]//ProcSymponSemanticMininginBiomedicine.2005;5159.Z-19YanTanNZhanXetal.Multilekellearnininroteinroin[,,,rnete]呂ggpgppinteractionextractionfrombiomedicalliterature.Arifiilintelliencein[J]tcag-medicine,2011,51(3):163173.2-ilsenA.Extractnroteinroteninteracionsusnimecontextual[0]NeLigppitigspl-featuresC]//ProceedingsoftheHLTNAACLBioNLPWorkshoponLinkingNatural[一LanguageandBiology.ssociationforComutationalLinistics2006:120121Apgu.,2--1lsaloornesraernerrotenro[AiroaAPyySBetal.Alllfoitein],,jJ,pathgphkpp-interactionextractionwithevaluationofcrosscorpuslearning.BMC[J]bioinformatics2008911):1.,,(22nLZhou一—iaG.Treekernelb过sedroteinroteininteractionextractionfrom[]Q,ppournafomed-biomedicalliterature.lobiicalinformatics20124日(3):535543.[J]J,,YoonYaneta--23KimSl.Walkweitedsubseuencekernelsforroteinrotein[],J,gJ,ghqppinteractionextraction.EMCbioinformatics201011(1):107.[J],,24MillerDJUyarHS.Amixtureofexertsclassifierwithlearninsedonboth[],pgbalabelledandunlabelleddataC//Advancesinneuralinformationrocessinsystems.[]pg7-199:日71577R-sedss25ErkanGOzgurAadevDRictonforExracron[].SemiSuperviClaifaittin呂Ptei,,rac--IntetionSentencesusinDeendenc化rsinEMNLPCo化L20077:228237.gpyg[口//,-[26ZhuXiZLaffert.Siislinusinaussianfields],Ghahraman,yJemsupervedearng呂g2003-andharmonicfunctionsC//ICML.3:912919.[],27巨umAMchei-illT.ombininlaedndunabeleddatawthcainnC//[litCbelalotr[]],ggProceedingsoftheeleventhannualconferenceonComputationallearnin呂theory.-ACM1998:92100.,-45- 基于半监督和深度学习的生物实体关系抽取WanW—[28]呂ZhouZH.CoaininwiinsicientviewsC/AsianConferenceon,tr呂thuff[]/Mach-ineLearning.2013:467482.9WanW一[2]gZhouZH.Anewanalsis曰fcotrainin[C]//Proceedinsofthe27th,y邑呂-InternationalConferenceonMachineLearningICM^IO.2010:11351142.()WanWZhouH—30Z.AnalzingcotraininstlealorithmsMMaineLearning[]g:ECML,ygy呂[]//ch-2007.SinBerlinHeideprgerl_ber呂:454465.,20073-[1]PierceD,CardieC.Limitationsofcotrainingfornaturallanguagelearningfromlargedatasets[C]//Proceedin呂softhe2001ConferenceonEmpiricalMethodsinNara-tulLanguageProcessing.2001:19.MatwnS-[32KiritchenkoSi.Emailclassificationwithcotraininroceedingsof],呂[C]//Pthe2011ConferenceoftheCenterforAdvancedStudiesonCollaborativeResearch.-IBMCorp.2011:301312.,33SonMYuHHanWS-Cininivlinandmiislin[]g,,.ombgacteearn呂sesupervedearng201techniuestoextractprotesentences.MCionformatics1qininteraction[J]Bbi,,12(Suppl12):S4.Zhou—34ZHLiM.Tritrainin:Exloitinunlabeleddatausinthreeclassifiers.[],呂pg呂[J]neer-KnowledgeandData巨niinI目EETransactionson200517(11):15291541.gg,,,巧5]崔宝今,林鸿飞张霄.基于半监督学习的蛋白质关系抽取研究[].山东大学学报:工,J2009-学版39(3):1621.,,巧6伟中邓蔚..]钱,,傅挪,等基于联合训练的蛋白质互作用信息抽取方法倡[J]计算机应用研究201128巧).,,WuSY—37ChouCLChanCH.SisurvisedSeuenceLabelinforNamedEntit[],呂,empeqgyExraconTr-ttionbasediTraining:CaseStudyonChinesePersonNameExtraction[J].SWAIE2042014:33.1,3HintonG目LearnindistributedreresentaionsfcProceedingsof[引.gptooncepts[C]//alcthenvesciencesoc.theeithnnuaonferenceofcoitiiet.9861:12ghgy1,3日BengioYSchwenkHSen爸calSetal.Neuralrobabiltanua[]isicl,,J,pg呂eMIii.SrinerBer:models[]//nnovat曰nsinMachineLearnn旨pglinHeidelber呂,2006-137186.[40]MikolovTChenKCorradoG,etal.Efficientestimationofwordrepresentations,,invectorspace[J].EprintArXiv,2013,1301.378.41MikolovTSutskeverIChenKetal.Distributedreresentationsofwordsand[],,,pphrasesandtheircompositionality[C]//Advancesinneuralinformationprocessing一巧stems.2013:31113119.42CollobertRWestonJBottouLeta.uralnucessinalmofromlNatlaagepro(st)[],,,gg-scratch[J.ThenalofMachineLearninesearch201112;24932537.]JourgR,,-46- 大连理工大学硕±学位论文43KimY.Convolutionalneuralnetworksforsentenceclassification.EintArXiv[][J]pr,20141408.5882.,[44]ZhanDWanD.民elationClassificationviaRecurrentNeuralNetwork.Erintg,g[J]pArXiv20151508.01006.,,[45ZengDLiuKLaiSetal.RelationClassificationviaConvolutionalDeeeural],,,pNNetwoNG202-:rk[C]//C0LI.14:3352344.LuYWeFL-[46]iiiSetal.Adeendencbasedneuralnetworkforrelation,,,pyclassification^.ErintArXiv20151507.04646.]p,,[47]XuK,FengY,HuangS,etal.Semanticrelationclassificationviaconvolutionalneuralnetworkswithsimplenegativesampling[J].EprintArXiv,201日,1己06.07目50.48MiwaMPsaloSHaraTetal.Acomarativestudofsntacticarsersforevent[],yy,,pyypextractionC/Proceedinsofthe2010WorkshoponBiomedicalNaturalLanuae[]/邑ggProcema-ssing.AssociationforCoputtionalLinuistics2010:3745.g,49KleinDManninCD.Accuraicalizedin[CPr曰ins1st[],gteunlexpars呂]//ceedgofthe4—A打nualMeetinnAssociationforComtationalLinisticsVolume1.Association呂opuguforComu423-ptationalLinguistics,2003:430.50rCVan-works[]CotesikV.Suortvectornet[],Machinelearnin,199日20(3);,pppJg,273-297.[oljHanleyJAMcNeilB.Themeaninanduseoftheareaunderareceiveroeratin,J呂pg-characteristicOCcurve.Radiolo巧821431巧)[J]gy:2936.,,()[弓2]BradleyAP.TheuseoftheareaundertheROCcurveintheevaluationofmachinenParnre-learnigalgorithms.tteconition199730(7:11451159.!!]g,,)[53]YangY,PedersenJ0.Acomparativestudyonfeatureselectionintext-cateorizationCICML.199797:412420.g[]//,54CollinsMDuffN,Convolutionkernelsfornaturallaninneural[],yguage[C]//Advancesforma目25—intionprocessingsystems.2001:632.[55]AronsonAR.Metama:Mappintexttotheumlsmetathesaurus.BethesdaMD:NLMpg[J],,-NIHDHHS2006:126.,,[56]Zhan呂M,ZhangJ,SuJ,etal.AcompositekerneltoextractrelationsbetweenentitieswithbothflatandstructuredfeaturesC//Proceedin呂softhe21st[]InternationalConferenceonComputationalLin呂uisticsandthe44thannualmeetingoftheAssociationforComputationalLinguistics.AssociationforComputationalst-Linguiics2006:825832.,[57]CarlettaJ.Assessin呂agreementonclassificationtasks:thekappastatistic[J].-Comu:tionallinuiics199622(2:249254.plagst,,)-47- 基于半监嘗和深度学习的生物实体关系抽取攻读硕±学位期间发表学术论文情况--1病症和病症.疾病治疗物质的关系抽取研究.,杨志豪计算机工程冯钦林,林鸿飞与应用,拟刊登在2017年第5期(本硕±学位论文第王章)i-SuervisedLearninBasedDiseaetomandTheut2SemsSymperaicSubstance民eatnpglio,pExtractionfromBiomedicalLiterature。inlinFengWhaoYanHonfeiLinbiomedQ,Zg,g,researchinternational.本硕i学位论文第兰章和第四章)(在投)(-48- 大连理工大学硕±学位论文致谢时光匆匆而过,H年的研究生生涯即将结束。细细回想这H年的点点滴滴,我成长了很多,也学到了很多。在经历了人生中的大起大落之后,对于生活有了自己的理解。一在这里感谢那些陪伴我成长的老师和同学,感谢这路的教诲和照顾。首先要感谢的是我的导师杨志豪教授,。在我研究生期间杨老师在学术上给予我全,面的指导和帮助,每当我在科研中遇到困难,老师总能指导我找到问题根源帮助我找到合适的解决方案,让。同时杨老师脚踏实地、精益求精的科研态度深深的影响着我我一颗敬畏之也,,在我人生低对科研始终怀着。在生活上杨老师同样给予我很大的鼓舞,给予我无私的帮助,给我信必,让我对生活充满希望谷时。其次要感谢的是林鸿飞教授。林老师是我们实验室的精神领袖,在他的带领下,实验室拥有很好的科研氛围。同时林老师在培养实验室成员的个人能力上也下了很大的功夫,在新生刚进入实验室时,林老师总会组织新生参加训练,让他们更快的熟悉研究方一向和提升自身的能力,每年都姐织实验室活。在生活上林老师是位非常积极向上的人一动,如徒步、新年晚会,让、羽毛球比赛等。这些都深深的影响着我我时刻保持个积一屯、极的态对待学习和生活,同样也让我更加努力成为位积极乐观之人。再次要感谢的是实验室中其他的老师W及师兄师姐师弟和师妹。感谢你们在科研和工作上给予我帮助,。感谢你们营造的良好的学习氛围你们的欢声笑语让我对生活充满一、让我走过了这段幸福且有意义的时光信屯。谢谢你们的陪伴。,最后感谢我的家人,感谢你们这么多年对我求学的支持感谢你们帮我承担起了本一直在关屯、该由我承担的责任,。这么多年来和支持着我并带给我无数次的温暖。让我一、、屯的求学,你们给予了我最无私的爱在这H年里能安安屯。同样你们也给予了我承担切的勇气。一,祝大家在今后的人生中切安好再次向所有帮助过我的人说声谢谢。--49 大连理工大学硕±学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阔。学校有权保留论文并向国家有关部口或机构送交论文的复印件和电子版,可L乂将本学位论文的全部或部分内容编入有关数据库进行检索L,可乂采巧影印、缩印、或扫描等复制手段保存和汇编本学位论文。:台矣学位论文题目装丰A私省扼魏斯尔的'车朵她心<^)年:马施故日期:方/月日作者签名导师签名:日期;又^年(月日枯走_[三

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭