欢迎来到天天文库
浏览记录
ID:34567118
大小:2.72 MB
页数:65页
时间:2019-03-08
《生物医学文本中指代消解的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文生物医学文本中指代消解的研究CoreferenceResolutioninBiomedicalTexts学号:21109191完成日期:2014-05-04大连理工大学DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意
2、承担相关法律责任。学位论文题目:丝垃垂益童奎鱼盘垡i盥亟蛰亟作者签名:独亟日期:塑!生年—L月j一日大连理工大学硕士学位论文摘要目前,生物医学文献正呈指数级别增长,其中存储着丰富的知识,对生物医学的科研、教学和实践,疾病的诊断、预防和治疗,新药的研制都起着至关重要的作用。因此,从这些海量的文献中高效地获取真正有价值的信息,成为人们日益关注的问题。而指代消解任务正是实现获取有价值信息的基础,很大程度上,影响了信息抽取的性能。本文针对生物医学文本中的指代现象进行研究,根据系统框架,分为两个步骤。第一步抽取出开发集语料中的候选照应语和先行词。抽取性能的好坏直接影响到下一步消解的效果
3、。针对代词照应语和名词短语照应语,分别采用不同的规则进行抽取。对于代词照应语,构建代词列表,抽取出代词列表中的所有代词;针对代词“that”和“it”,分别根据Enju解析器的结果和规则进行过滤,极大地提高了代词照应语识别的精确率。同样地,对于名词短语照应语,使用规则进行抽取和过滤。第二步对照应语进行消解,采用两种方法:单纯的机器学习方法和融合的方法。在第一种方法中,并没有直接使用通用领域指代消解机器学习方法中使用的特征,而是根据生物医学领域指代消解的特点,针对代词和名词短语照应语分别进行特征选择。最终对所有照应语消解的结果为49.36%F值,比现有的采用单纯机器学习方法的F
4、值提高了10.06%。实验结果说明,针对不同照应语类型,分别进行特征选择的机器学习方法是有效的。为了进一步提高系统的性能,本文又采用融合的方法进行实验,针对不同的照应语类型(关系代词、非关系代词和名词短语)采用不同的消解方法。对关系代词的消解,采用机器学习与规则相结合的方法。对非关系代词的消解,为了克服将非关系代词划分过细,导致对指示与不定代词采用机器学习方法中数据的稀疏问题,以及对人称代词消解采用基于树核的机器学习方法中,未考虑词法信息的缺陷,本文将人称代词和指示与不定代词合并起来采用基于规则的方法进行消解。对名词短语的消解,采用基于规则的方法。在BioNLP201l开发集
5、语料上进行实验,对非关系代词的消解结果比目前最好的消解结果有了明显的提高,总体消解的F值比目前最好的结果提高了1.21%。说明本文基于融合方法的指代消解系统是有效的。本文的两种方法,融合的方法可以获得更高的系统性能,而单纯的机器学习方法则具有更好的鲁棒性和推广性。总体上,本文构建的两种生物医学指代消解系统都是有效的,性能都获得一定程度的提高。关键词:指代消解;生物医学文本;机器学习;基于规则的方法;多种方法融合生物医学文本中指代消解的研究CoreferenceResolutioninBiomedicalTextsAbstractCurrently,thenumberofbio
6、medicalliteraturesisgrowingexponentially.Thereisabundantknowledgeinthesebiomedicaltexts,whichplaysanimportantroleforthescientificresearch,teachingandpracticeinthebiomedicalfield,thediagnosis,preventionandtherapyaboutdiseases,andthedevelopmentofnewdrugs.Therefore,thatthevaluableinformationis
7、extractedefficientlyfromthesemassiveliteratureshasbecomemoreandmorepopular.Thecoreferenceresolutiontaskisthebaseofgainingthesevaluableinformationandinfluencestheperformanceoftheinformationextractiontoagreatextent.Inthisthesis,thecoreferencephenomenoninth
此文档下载收益归作者所有