基于tri-training算法的中文电子病历实体识别研究

基于tri-training算法的中文电子病历实体识别研究

ID:9143949

大小:75.50 KB

页数:7页

时间:2018-04-19

基于tri-training算法的中文电子病历实体识别研究_第1页
基于tri-training算法的中文电子病历实体识别研究_第2页
基于tri-training算法的中文电子病历实体识别研究_第3页
基于tri-training算法的中文电子病历实体识别研究_第4页
基于tri-training算法的中文电子病历实体识别研究_第5页
资源描述:

《基于tri-training算法的中文电子病历实体识别研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于Tri-Training算法的中文电子病历实体识别研究王润奇关毅哈尔滨工业大学计算机科学与技术学院半监督学习是一种结合监督学习与无监督学习的学习方法,通过利用未标记数据,提高标记数据所建立模型的效果,目的是减少传统的机器学习任务中对大量标注数据的需求、降低人工成本。在中文电子病历实体识别领域,由于缺少足够的标注数据,且医学文木专业性较强、人工标注成木高,可以利用半监督学习方法,提升少量标注数据的训练效果。本文介绍了中文电子病历实体识别的研究背景和半监督学习的相关研究,并应用改进后的Tri-Training算法,提升屮文电子病历实体识别

2、模型的效果。关键词:实体识别;半监督学>」;Tri一Training;NamedEntityRecognitionresearchinChineseelectronicmedicalrecordsbasedonTri-TrainingalgorithmWANGRunqiGUANYiSchoolofComputerScienceandTechnology,HarbinInstituteofTechnology:Abstract:Semi-supervisedlearningisamethodofmachinelearningcombinin

3、gsupervisedlearningwithunsupervisedlearning.Itimprovestheresultofmodelestablishedbythelabeleddatawiththeuseofunlabeleddata,aimingtoreducetheneedoflargeamountoflabeleddataandthelaborcost.InthefieldofNamedEntityRecognition(NER)ofChineseelectronicmedicalrecords,semi-supervis

4、edlearningcouldbeusedtoimprovethetrainingresultofafewlabeleddata,duetothelackofenoughlabeleddata,theprofessionalityofmedicaltextsandthehighcostofmanualannotation.ThispaperintroducesthebackgroundofNERinChineseelectronicmedicalrecordsandrelatedresearchesofsemi-supervisedlea

5、rning,andappliestheimprovedTri-TrainingalgorithmtoimprovetheeffectofNERmodelofChineseelectronicmedicalrecords.Keyword:NamedEntityRecognition;semi-supervisedlearning;Tri-Training;0引言信息技术的发展带来了各行业的信息化建设。医学信息系统在医院中迅速兴起,海量的电子病历也随之产生。越来越多的电子病历取代了传统纸质病历,不仅避免了实体介质易污损、病例易缺失造成的重复检

6、查的困扰,也方便了资料在科室、医院等不同单位间的传递。近年来,随着人们对健康的关注,智能医疗成为研究热点。借助人工智能的医疗服务系统,可以减少0前由于医疗资源紧缺导致的看病难、医患关系紧张等问题。电子病历屮包含了患者就医过程屮,医务人员记录下的真实临床信息。如果能自动化识别电子病历中的宝贵信息,不仅能让患者随时了解自身健康状况,对未来的疾病风险有所了解与预防,还能为医疗决策支持、询证医学、疫情监测等实际应用提供可靠的数据支持。实体识别研究作为信息处理与数据挖掘的基础,是开展针对电子病历文本研究的前提m。但是,与开放领域的实体识别研宄一样,

7、屮文电子病历的实体识别研宄也需要大量标注语料。国内电子病历的实体识别工作方刚刚起步,缺少充足的标注语料,且标注语料的获取需要医学专业人员的手工标注,人工与时间成木高。因此,通过主动学习、半监督学习等方法,利用未标注数据对学习性能做进一步效果提升,成为近年来的研究热点。1相关研宄命名实体识别作为医学自由文本数据中抽取信息并结构化的关键技术,一直是临床眹学自然语言处理(NLP)的研宄基础与热点。通用NLP领域的大量名实体识别方法被成用到了临床医学信息抽取领域,其中伍括早期釆用的基于词典与规则相结合的方法,和随着医疗信息语料库构建而兴起的基于机

8、器学>』的方法。在一系列公开测评任务中,基于机器学习的监督学习模型取得了较好的性能。DingchengLi等对比了条件随机域(CRF)和支持向量机(SVM)两种模型,并结合SNOMED-CT词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。