基于条件随机场的中医病历命名实体抽取方法研究

基于条件随机场的中医病历命名实体抽取方法研究

ID:37395607

大小:9.05 MB

页数:63页

时间:2019-05-23

基于条件随机场的中医病历命名实体抽取方法研究_第1页
基于条件随机场的中医病历命名实体抽取方法研究_第2页
基于条件随机场的中医病历命名实体抽取方法研究_第3页
基于条件随机场的中医病历命名实体抽取方法研究_第4页
基于条件随机场的中医病历命名实体抽取方法研究_第5页
资源描述:

《基于条件随机场的中医病历命名实体抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、劣臻交硕士学位论文基于条件随机场的中医病历命名实体抽取方法研究AStudyofNamedEntityExtractionofTCMMedicalRecordsusingConditionalRandomFields作者:刘凯导师:于剑北京交通大学2013年3月中图分类号:TP39UDC:j匕学校代码:10004密级:公开lUilNllllllr

2、llINY2428661硕士学位论文基于条件随机场的中医病历命名实体抽取方法研究AStudyofNamedEntityExtractionofTCMMedical

3、RecordL1S‘nConditionalRand()mFieldstlSlg0n1t10nl{anclomP1eClSn作者姓名:刘凯导师姓名:于剑学位类别:工学硕士学科专业:计算机科学与技术学号:10120487职称:教授学位级别:硕士研究方向:文本挖掘北京交通大学2013年3月jE立窒适盔堂亟±堂一鱼.途塞史塞擅噩中文摘要临床诊疗实践是中医学理论研究和诊疗技术创新的源泉。随着近10年医疗信息化建设的进展和临床数据的不断积累,作为诊疗实践主要信息载体的中医临床病历成为中医学和信息学关注的重要研究资源

4、。名老中医文本病历是中医临床诊疗的重要数据资源,它具有非结构化、口语化、专业化等特点,对其数据深度利用的重要前提是对相关医学命名实体术语的抽取,而命名实体抽取方法正是从自由文本中抽取所需命名实体术语的基础技术。但由于中文自然语言表达的灵活性和中医临床信息内容的个体性特点,进行中医临床文本病历的信息抽取研究是一个难点问题。因此,进行中医文本病历的命名实体抽取研究,探索形成相关的适宜信息抽取方法具有重要价值。本文首先介绍信息抽取的研究现状和相关算法,分析中医临床病历的数据特点以及对中医病历进行命名实体抽取面临

5、的困难。在此基础上,进行语料库标注系统的设计和开发,该语料库标注系统可通过Bubble—Bootstrapping算法、前向最大匹配算法和手工标注相结合的方式对病历进行命名实体抽取,并可对语料进行多粒度存储和多格式导出。结合语料库标注系统和专家审核的方式对病历进行标注,本文共形成由413份标注文本病历数据集,该数据集主要包含冠心病(233份)和糖尿病(180份)两个子集。其次,鉴于症状/体征、诱因和疾病名称是中医临床病历中的重要命名实体,本文通过对中医临床病历中的主要构成内容:主诉和现病史的语句特点和语法

6、模式分析,提炼形成了六种与命名实体抽取相关的特征。在此基础上,构建出四类面向命名实体抽取的特征模板。基于该特征模板集应用条件随机场(ConditionalRandomFields,CRF)进行了中医临床病历的命名实体抽取方法研究。通过十重交叉检验测试,实验结果表明结合特征模板MT3,CRF命名实体抽取表现最好(F1)(糖尿病:症状0.80,疾病名称O.74,诱因0.63;冠心病:症状0.77,疾病名称O.64,诱因O.74)。同时我们比较了CRF与隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)的

7、命名实体抽取效果。实验结果显示,相较HMM和MEMM,CRF有最高的准确率和召回率。初步表明,CRF是一种较为适用的中医临床病历命名实体抽取方法。在本研究的基础之上,可以将经过训练后的CRF模型集成到语料库标注系统中,形成中医病历命名实体智能标注系统,实现中医病历的自动结构化。关键词:中医临床病历;命名实体抽取;语料库标注系统;条件随机场;特征模板分类号:TP39汪丑蔓立交通太堂亟±堂焦途窒△垦曼至&△g!ABSTRACTClinicaltreatmentpractice1Sthesourceofstud

8、yandlnnovationofChineseTraditionalMedicine(TCM).Alongwiththeinformationconstructionandtheaccumulationofclinicaldata,theclinicalmedicalrecordsbecomeimportantresearchresourcesofTCMandInformaticsastheprimaryinformationcarrier.Clinicalmedicalrecordsrecordedby

9、sophisticatedTCMdoctorsareimportantdataresourceofdiagnosisandtreatmentofTCM.Itisunstructured,colloquialandspecialized,SOthepreconditionofextensiveuseofTCMisnamedentityextraction,whichisthebasictechnologyoftheextract

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。