欢迎来到天天文库
浏览记录
ID:5343642
大小:108.95 KB
页数:1页
时间:2017-12-08
《文本病历转换构件的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机光盘软件与应用软件设计开发ComputerCDSoftwareandApplications2010年第8期文本病历转换构件的设计与实现胡志东(牡丹江市肿瘤医院信息科,黑龙江牡丹江157009)摘要:本文介绍了系统的体系结构,然后对系统的各个模块详细阐述。关键词:文本病例转换构建;设计中图分类号:TP302.1文献标识码:A文章编号:1007-9599(2010)08—0162-01Design&ImplementationTextCasesTransferHuZhidong(InformationBranchforMudan
2、jiangCancerHospital,Mudanjiang157009,China)Abstract:Thisarticledescribesthe~chimcmreofthesystem,thenthemodulesofthesystemdiscussedindetailsKeywords:Textcasetransferconstruction;Design本系统根据Hobbs提出的信息抽取系统的通用体系结构,结子病历进行处理,因此根据医学术语库和病历诊察抽取模式对病合病历本身的一些特点,特别是针对汉语的特点,设计了一个基历进
3、行信息抽取,并把结构化的信息放入符合HL7标准的数据库于Bootstapping算法的病历的信息抽取系统。本系统针对文本电中。一、系统各模块实现子拆分为多个句子,消除歧义,如“左肩关节外展、外旋受限”(-)语料采集与分类模块拆分为“左肩关节外展受限”和“左肩关节外旋受限”。语料采集与分类模块的主要功能是:从文档中过滤无效病历三、信息转换模块信息;将病历中的各类信息进行分类,再交付相应的模块处理。该模块的主要功能为:利用获得的二元关系、诊察信息抽取方法:本文使用的语料属于半结构化的语料,这些语料的各模式、自定义模式和语义类库对病历中的
4、除病人基本信息外的信个部位都有相应的关键词提示,如“病人特点”、“查体”、“入院息规则匹配,抽取相应的信息。该模块主要分为以下两个小模块:经过”等。本模块通过这些关键词提示,将相关信息分类,并递(一)基于自定义模式的信息抽取交给相应程序处理。自定义的模式抽取任务主要有:病历生成时间的抽取;病史(二)模式学习与生成模块信息的抽取;诊疗信息的抽取。针对以上三个任务各自的特点,主要是对通过分类提取的诊察信息语料进行处理得到特例模本文设计了三个自定义模式,用来完成上述三个任务。式集合,再对多个相同类的特例模式进行二元关系泛化得到二元i.病历
5、生成时间的抽取。在本文研究的病历中,病历的生成时关系泛化模式集合,最后对模式库中的二元关系泛化模式进行语间出现在每个病历的第一条信息处。如:“2005—10—610:O0”,义类泛化,获得语义类泛化模式集合。表示病历生成时间是2005年1O月6日上午十点整。其结构比较简单。(三)关键词识别模块基于以上分析,本文自定义的模式为。其中,y/m/d针对病历中病人基本信息集中在一起,并有关键词提示的特分别表示病历生成的年月日,c/mi表示具体的时、分。模式使用时点,使用关键词表对病人基本信息进行抽取,如“姓名”、“年
6、龄”、只需将病历的第一条信息按照具体位置进行相应填充即可。“地址”等关键词后即为要抽取的相应信息。2.病史信息的抽取。前文中已说明,本文只对病史信息中的(四)术语管理模块病名、发病时间/持续时间,这两个信息进行抽取。因此,可手工该模块主要用来对医学术语进行管理,为系统以后扩充做准定义病史模式为:,其中,T表示时间,N表示病名,s备。功能主要包括:术语查找、术语插入和术语删除。表示时间为发病时间或疾病持续时间。此外,由于具有医学领域(五)数据存储模块的独特性,该算法不考虑较复杂的时间类表述。主要针对利用模式进行抽取的信息
7、,使用已设置好的模式与3.诊疗信息的抽取。本文定义的诊疗信息抽取模式为:<检查数据库表对应关系进行数据存储。项目名集合,药名集合,治疗方针集合>。抽取的方法为:将经过中文语句处理模块与信息转换模块的功能与设计比较复杂,中文预处理的诊疗信息利用医学术语库进行医学术语匹配,获取下面将对这两个模块进行详细介绍。的相关检查项目名、药名以及治疗方针存入相应集合中。生成的二、中文语句处理模块三个集合即为模式抽取的信息。中文语句处理模块的主要功能为:(二)基于自动获取模式的信息抽取(一)对中文语句进行整理分割,形成单句该部分的任务是对病历中的诊察
8、信息进行抽取。问题的难点在中文语句是由大段的汉字中间夹杂标点来组成的,这种大段的于:模式库中的诊察信息抽取模式,经过模式的两阶段泛化,已经语句无法用单一的定义模式来抽取。因此,本文对大段语句按照标成为抽象的字符串组合。这种组合已经脱离
此文档下载收益归作者所有