医学领域知识抽取方法研究.pdf

医学领域知识抽取方法研究.pdf

ID:35010582

大小:3.39 MB

页数:123页

时间:2019-03-16

医学领域知识抽取方法研究.pdf_第1页
医学领域知识抽取方法研究.pdf_第2页
医学领域知识抽取方法研究.pdf_第3页
医学领域知识抽取方法研究.pdf_第4页
医学领域知识抽取方法研究.pdf_第5页
资源描述:

《医学领域知识抽取方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、博士学位论文医学领域知识抽取方法研究RESEARCHONMEDICALDOMAINKNOWLEDGEEXTRACTIONMETHODS李昊迪哈尔滨工业大学二〇一八年四月国内图书分类号:TM301.2学校代码:10213国际图书分类号:62-5密级:公开工学博士学位论文医学领域知识抽取方法研究博士研究生:李昊迪导师:陈清财教授申请学位:工学博士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:二〇一八年四月授予学位单位:哈尔滨工业大学ClassifiedIndex:TM301.2U.D.C:62-5DissertationfortheDoctoralDegreeinEngineerin

2、gRESEARCHONMEDICALDOMAINKNOWLEDGEEXTRACTIONMETHODSCandidate:HaodiLiSupervisor:ProfessorQingcaiChenAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:April,2018Degree-Conferring-Institution:HarbinInstituteofTec

3、hnology摘要摘要知识抽取是将信息源中的知识进行分析、识别、理解、关联的过程,而抽取自然语言文本中的实体和实体关系是知识抽取的一个重要研究内容。在通用领域,从互联网等无结构文本中抽取实体与实体关系的抽取方法,通常综合应用了词性标注、命名实体识别、文本分类等诸多自然语言处理技术,已被广泛应用于构建知识图谱。对于医学领域,虽然临床诊疗记录、医学文献等医学文本中积累了海量的医学知识,但由于医学领域中知识抽取的复杂性和应用标准的严格性,目前绝大多数医学知识库依旧依赖于专家手工构建。因此,应用于医学领域的知识抽取方法亟待进一步的研究。本文从自然语言处理角度出发对医学文本中医学知识抽取面临的实际问题进

4、行研究,目标是更准确地从医学文本中自动抽取医学领域实体和实体关系。研究将医学领域知识抽取分为三个主要步骤:首先从医学文本中抽取实体描述,然后将抽取的医学实体描述对应到标准实体上,最后从医学文本中抽取关系以建立标准实体间关联关系。此三步分别对应实体识别(EntityRecognition)、实体标准化(EntityNormalization)、关系抽取(RelationExtraction)三个自然语言处理任务。本文的主要研究内容包括以下几个方面:首先,本文对医学领域的实体抽取问题进行研究。由于临床医学文本中的风险因子实体具有多种不同的描述方式,传统用于抽取短语描述的序列标注方法难以处理。针对实

5、体描述方式的差异性问题,本文按照描述方式的不同将风险因子实体重新分类,提出了基于描述方式的实体抽取方法,在序列标注方法的基础上分别构建规则或机器学习模型进行抽取。实验结果表明,该方法能够从医学文本中抽取复杂描述方式的实体,在i2b22014心脏病风险因子抽取评测任务上微平均F值达到92.68%,在不加入额外人工标注的方法中取得最佳效果。其次,本文对医学领域的实体标准化进行研究。本文具体研究如何将医学文本中的实体描述对应到医学知识库中标准实体的问题。以往研究主要为规则或浅层机器学习方法,对实体标准化通常停留在词法层面而较少涉及语义。针对一些实体语义相同而词法不同的问题,本文提出一种基于卷积神经网

6、络的排序学习方法,首先采用一种规则过滤方法构建候选集合,然后通过卷积神经网络学习候选-I-哈尔滨工业大学工学博士学位论文集合中实体和实体描述的向量表示,最后使用排序学习方法进行重排序,将不同的医学实体描述映射到标准医学实体上。实验结果表明,该方法在NCBI疾病数据集、BioCreativeVCDR数据集、ShARe/CLEF电子病历数据集上与基准方法相比均有更好性能,能够学习实体描述和标准实体之间的语义相似性。然后,本文对医学领域的实体关系抽取方法进行研究。通用领域关系抽取研究主要集中在单句关系抽取上,较少研究文档级关系抽取问题。针对文档级关系抽取中关系描述跨句的问题,本文先提出一个基于分段式

7、卷积神经网络的有监督学习模型。该模型对句内和跨句的关系进行统一学习,采用注意力机制与领域专业知识提高性能,不依赖于句法标注或特征工程。我们在CDR公开数据集上进行了实验,结果表明方法能够有效抽取跨句实体关系。在此基础上,针对单示例表示的文档级关系抽取样例缺失问题,本文提出了一种基于循环神经网络的多示例弱监督模型。该模型首先以分段式有监督深度卷积神经网络为基础来学习单示例表示,然后采用多示例学习方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。