关于传统文本检索模型的生物医学文本检索

关于传统文本检索模型的生物医学文本检索

ID:22415957

大小:65.50 KB

页数:8页

时间:2018-10-29

关于传统文本检索模型的生物医学文本检索_第1页
关于传统文本检索模型的生物医学文本检索_第2页
关于传统文本检索模型的生物医学文本检索_第3页
关于传统文本检索模型的生物医学文本检索_第4页
关于传统文本检索模型的生物医学文本检索_第5页
资源描述:

《关于传统文本检索模型的生物医学文本检索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、关于传统文本检索模型的生物医学文本检索-->第一章绪论1.1研究背景与意义随着数字技能在医学范畴的应用,医院和医学中央每天都孕育发生和处置处罚着大量的医学数据,要是能从这些大量异构的医学数据中检索出用户必要的信息,那是很有研究代价以及应用远景的。究竟上,有大量的医学数据聚集为研究职员、卫生保健提供者和对此信息感兴趣的全部范例客户包罗视觉和文本的信息。然而,想要访问这些大量的数据并不容易,因此人们必要使用本身的东西和检索体系来进步数据的存取性能和办理。第一个主动信息检索体系在上世纪60年月被提出,信息检索范畴今后诞生。大多数信息检索范畴的研究都用于生物医学信息范畴。Ram

2、ampiaro提出了这个范畴的几个奇特题目,此中最大的挑衅便是生物医学信息以包罗大量范畴特别性的术语而且有高度多义性为特点[1],如:统一个卵白质或基因有去多差另外单词表现,统一个单词又大概有很多种意思。其中MEDLINE[2](TheNationalLibraryofMedicine,简称NLM)作为当今国际上权威度最高的生物医学文献数据库是由美国国立图书馆开发的综合性生物医学信息文献数据库。近几十年来,生物医学检索通过相关科学类文章数量的剧增已经显示出了快速发展的趋势。MEDLINE的文章存储量在2009年就已经超过17,000,000了。在2008年超过600,0

3、00(见图1-1)的新文章被添加进数据库中。从如此海量的科学知识中获取最新并检索相关信息变的越来越重要且具有挑战性。信息检索被定义为涉及到“结构,分析,组织,存储,查找以及检索信息”的一个领域[3]。根据这个定义,我们将生物医学信息检索定义为“结构,分析,组织,查找以及生物医学信息检索”。生物医学信息检索不仅对最终使用者很重要,例如:生物学家、生物化学家、生物信息学家对相关文献的直接查找,同时在进一步的知识发现中也扮演着很重要的角色。不光是一般的医学信息检索,还有........................................1.2相关发展及国内外研究现

4、状1.2.1生物医学信息特殊性在生命科学范畴的信息检索中最大的挑衅来自于其庞大而且重复无常的专业术语[1,5]。新牛津美国辞书将专业术语界说成“用单词来装载某一特定范畴技能应用的主题,理论,专业以及其他附加物”。观点被界说成“抽象看法或是大脑中的总体思绪”,单词或词组被用来形貌观点。在生物医学范畴中,单词和观点之间的映射尤为庞大。自动处理生物医学专业术语的困难程度很大程度取决于它的复杂性和反复无常性。复杂性——生物医学专业术语固来就很复杂。生物医学单词通常是由几个单词组成的或是直接融合了几个词。例如:概念“nuclearfactorkappa-light-chain-e

5、nhancerofactivatedBcells”就被改写成了“NF-κB”[4]。反复无常性——生物医学专业术语变化非常快并且新的概念和单词频繁被引入。再加上有大量的同义词的存在,相应的可能会产生歧义。由于专业术语的复杂性和反复无常性,因此经常会出现同义词:多个词用来描述同一个概念。这些同义词包括拼写上的变化如“NF-κB”和“NFkappaB”,符号和缩写甚至是完全不同的表述词语如“madcoEncephalopathy”。...................................第二章相关理论与工具2.1医学主题词表(MeSH)2.1.1MeSH简介所

6、有MeSH主题词按照树形结构来进行编组并按照学科属性划分为如下16个大类:A.解刨学(Anatomy)B.有机体(Organisms)C.疾病(Diseases)D.化学物质和药品(ChemicalandDrugs)E.分析、诊断治疗技术装备(Analytical,DiagnosticandTherapeuticTechniquesandEquipment)F.精神病学和心理学(PsychiatryandPsychology)G.生物科学(BiologicalSciences)H.自然科学(PhysicalSciences)I.人种学(Anthropology,Educ

7、ation,SociologyandSocialPhenomena)J.工艺学、工业和农业(TechnologyandFoodandBeverages)K.人文科学(Humanities)L.情报科学(InformationScience)M.人(Persons)N.保健(HealthCare)V.出版类型(PublicationCharacteristics)Z.地理名称(GeographicLocations)每个主题词都在层次结构中至少出现在一个位置上。各类MeSH主题词都按如图2-1与图2-2树形结构存储。............

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。