欢迎来到天天文库
浏览记录
ID:5334147
大小:514.27 KB
页数:5页
时间:2017-12-08
《医学语言处理技术及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、医学语言处理技术及应用李昊旻①段会龙①吕旭东①李莹①基金项目:中国高技术研究发展(863)计划资助项目(2006AA02Z348)①浙江大学生物医学工程与仪器科学学院生物医学工程教育部重点实验室,310027,浙江大学玉泉校区新生仪大楼关键字医学语言处理概念提取信息理解知识挖掘摘要由于临床信息的复杂性和灵活性,病历以一种自然语言叙述性的方式来记录,这样的记录方式已经长期存在并将继续存在,病历具有丰富的信息资源可以服务于临床实践、临床研究以及临床质量管理等许多方面;爆炸式增长的生物医学知识普遍存在于自然
2、语言形式的医学文献中,这些知识中建立关联可以服务于新知识的发现。叙述性文本信息的自动利用需要自然语言处理技术,因而医学语言处理已经成为了医学临床实践和转化医学最为核心的信息技术挑战,研究和应用医学语言处理技术特别是中文环境下的医学语言处理技术对于我国医疗信息化具有重要意义。1引言传统上病历中信息主要形式是自然语言,这包括了临床医生书写的住院志、病程记录、会诊记录、手术记录以及各种医技科室发出的放射、超声、内镜、心电、病历检查报告,这些叙述性病历信息构成了绝大多数的病历内容。医疗信息化和电子病历的发展虽
3、然长久以来试图推动病历信息的结构化,但是由于临床信息的复杂性和灵活性,现有结构化实现技术无法满足临床对于病历信息表示的要求,因而临床医生依然并将继续使用叙述性文本作为主要的形式来记录临床信息。每年投入在生物医学基础研究上数百亿计的资金,其中绝大多数的产出仅仅是文献,当科学分工越来越细,不同领域之间的沟通不足成为新知识发现的障碍,利用这些生物医学文献进行挖掘可以发现一些模式和规则来启发或者引导新的发现。无论是叙述性病历还是医学文献,其中具有宝贵价值的信息以自然语言的形式捆绑在一起,在医疗实践和研究中利用
4、计算机来处理这类信息的需求越来越大。2医学语言处理和应用自然语言技术诞生于20世纪60年代,尽管当时的计算机所具有的能力还很弱,但计算语言学家已经瞄准了利用计算机来进行文本处理和理解,该技术随人工智能、文本处理、信息提取、问答系统、对话理解、文档分类、机器翻译等应用的发展而成长起来。研究者建立了两套体系:基于语法及句法的符号学方法和基于1131语料库的统计学方法,然而自然语言的复杂远远超出了最初的想象,20世纪80年代后研究者认识到领域无关自然语言处理技术很难取得理想的结果,转而寻求在特定领域的语言处
5、理,医学语言处理就是在这种背景下诞生的,很快医学语言处理就被认为是自然语言处理最合适的领域,其原因包括: 医学语言是一种科学语言,它较日常交流用语更为规范; 医学语言具有一定的通用性,可以涵盖一半的自然语言; 医学实践中使用大量的自由文本形式的文档,包含了绝大多数临床信息,而这些信息的计算机利用缺乏有效手段; 文档的录入、管理、获取等工作相当繁重,占据了临床医护人员许多时间,迫切需要计算机来帮助解决; 生物医学基础研究产生的大量的医学文献无法被充分的利用。医学语言处理技术随着医疗信息化以及电子病历的推
6、广而逐渐成为医学信息学研究的重要环节,从简单的病历信息提取、报告自动编码到较复杂的信息理解甚至新知识的发现,相关的研究和应用越来越多。然而国内相关研究的开展和研究者还比较少,直接影响到我国医学信息学基础研究的发展,以及高层次医疗信息化,本文希望通过介绍医学语言处理技术及其应用来推动更多的研究者关注和参与到这个领域的研究中。2.1医学语言处理和概念提取即使限制在医学领域,自然语言依然是一个复杂的信息体,因而比较可行的医学语言处理技术应用首先从较简单的概念提取开始。概念提取是从叙述性医学文档中提取部分信息
7、并映射到标准术语编码,这些编码信息可以方便信息的获取和利用。这其中最成功和最知名的研究是MedLEE(MedicalLanguageExtractionandEncodingsystem),该系统从医学文档中提取UMLS(UnitedMedicalLanguageSystem)概念的查全率和查准率已分别达到83%和89%[]。其他的研究还有MetaMap[]和IndexFinder[]等,该类研究的通常做法是处理文本信息并影射其中概念到统一的概念编码,基于这些编码可以建立索引方便对具有海量文本的信息库
8、的查询和获取,或者根据这些编码来自动分类文档进行更高效的管理。目前广泛应用的在线医学文献库建设中也普遍采取了这样的信息检索技术,但病历文档同一般文档还具有一定的差异,经常需要对某些概念进行否定性质的描述,比如“未发现”“否认”“未触及”等描述是普遍的病历描述方式,因而要在病历中单纯的依赖文中有没有出现术语来作为信息检索的依据并不能取得好的结果,因此在病历文档中进行概念提取往往还需要进一步判断概念是否具有否定的上下文环境,相关的否定检出算法研究已有报道[,
此文档下载收益归作者所有