metamap的文本映射原理及其对检索效果影响的研究

metamap的文本映射原理及其对检索效果影响的研究

ID:26675234

大小:132.50 KB

页数:9页

时间:2018-11-28

metamap的文本映射原理及其对检索效果影响的研究_第1页
metamap的文本映射原理及其对检索效果影响的研究_第2页
metamap的文本映射原理及其对检索效果影响的研究_第3页
metamap的文本映射原理及其对检索效果影响的研究_第4页
metamap的文本映射原理及其对检索效果影响的研究_第5页
资源描述:

《metamap的文本映射原理及其对检索效果影响的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、MetaMap的文本映射原理及其对检索效果影响的研究摘要MetaMap是文本到UMLS超级叙词的映射工具。本文在对MetaMap的基本原理进行分析的基础上,利用自动文本检索系统SMART对经MetaMap映射的NLM文本测试集进行检索,分析MetaMap对检索效果的影响,并对其存在问题进行了简单分析。关键词MetaMap一体化医学语言系统超级叙词文本映射查准率查全率StudyonthePrincipleofTextMappingandEffectonInformationRetrievalofMetaMapAbstractMetaMapis

2、atoolofmappingtexttoUMLSmetathesaurus.BasedontheanalysisoftheprincipleoftextmappingofMetaMap,thepaperanalyzetherecallandprecisionoftheNLMtextcollectionmappingtoUMLSmetathesaurusbyMetaMapinSMART.Atlast,TheauthoranalyzetheproblemsofMetaMap.KeywordsMetaMap,UMLS,metathesaurus,

3、textmapping,recall,precision1引言随着检索向终端用户的发展,自然语言检索已成为必然趋势。但由于自然语言与语义概念并非简单的一一对应关系,因此如何在不增加用户检索负担的基础上提高检索效率,一直以来都是人们致力研究的问题。自动地确定文本中所涉及的概念,即有效地将自由文本映射到相应概念,是提高检索效率的一个途径[1]。在生物医学信息领域,许多研究人员已经开发了一些映射自由文本到MeSH或UMLS生物医学知识源的工具,包括MicroMeSH、Chartline、Clarit、Saphire及MetaMap等。它们已经在实

4、践中得到应用,并且已经取得了不同程度的成功,这主要取决于它们对诸如解析、词汇变化和对词义模糊的清晰化等自然语言处理问题的解决程度。MetaMap在文本映射中以其语言学的精确性和依赖于知识源(SPECIALIST™lexicon,专家词典)而著称。本文通过实例对MetaMap的文本映射的基本原理进行描述,并对MetaMap对信息索检效果的影响进行研究,进而对其存在的问题进行分析。2MetaMap的文本映射的基本原理2.1MetaMap文本映射的过程MetaMap的自动文本映射过程主要包括下列步骤[2]:(1)文本解析:将文本解析成名词短语,并

5、对每一短语执行下列步骤;(2)变量产生[3]:产生名词短语的变形词(下称为变量),变量实质上是包括名词短语中的一个或多个单词及它的拼写变化、缩写、首字母缩写、同义词、屈折词缀和派生词缀的变化以及它们的有意义的组合;(3)入选叙词[4]:形成包括变量之一的所有Meta入选词串集;(4)对入选叙词赋值[5]:对于每个入选的词串,计算该词串对名词短语的映射并利用赋词功能计算映射强度,按映射强度对入选词串排序;(5)映射构造:围绕名词短语的非相关部分组合入选词串,再计算基于组合入选词串的匹配强度,并选择那些最高得分的,组成一批对原始的名词短语的最佳

6、Meta映射。2.2名词短语的变量Meta映射算法始于计算每个由解析器发现的名词短语的变量发生器。变量发生器是名词短语中任何有意义的单词或出现在专家词典中的词串。例如,名词短语liquidcrystalthermography的变量发生器有liquidcrystalthermography、liquidcrystal、liquid、crystal和thermography(介词、限定词、连接词、辅助词、情态词、代词和标点被忽略)。本文中应用的一个简单例子是名词短语ocularcomplications,它的变量发生器是ocular和comp

7、lications。处理变量采用的是一个规范化的方法。简而言之,该方法是指一个变量不仅代表该词本身,也代表所有它的屈折变化和拼写变化。Collapsinginflectionalandspellingvariantsresultsinsignificantcomputationalsavings.处理过程如图1所示。对每一变量发生器的处理过程如下:图1:变量产生过程(1)计算变量发生器的所有首字母缩写/缩写和同义词,如图三个加黑框所示;(2)通过计算它们的派生词缀变量及其同义词来增加基础词汇;(3)计算每一个首字母缩写/缩写的同义词;(4)

8、计算每一个同义词的首字母缩写/缩写。为避免按照上述处理过程会循环地产生既定类型的变量,MetaMap按如下方法处理:首字母缩写/缩写不能产生循环式的反应,因为在这个过程中几乎总是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。