欢迎来到天天文库
浏览记录
ID:22825069
大小:54.00 KB
页数:6页
时间:2018-10-31
《面向生物医学文本之疾病关系发掘模型及算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、面向生物医学文本之疾病关系发掘模型及算法研究-->1绪论生物医学研究与二十一世纪生物技术科学的形成和发展密切相关,生物医学领域是关系到提高医疗诊断水平和人类自身健康的重要工程领域。作为最受关注的研究领域之一,生物医学研究领域发表了巨量的研究论文,已经达到年均60万篇以上。生物医学领域的文献记录展现了该领域内的大量成果和实验发现。面对数量如此巨大且快速增长的文献,如何快速有效地获取相关知识,是该领域所面临的挑战。生物医学文本挖掘技术作为生物信息学分支之一,是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。国际上生物医学领域的权威数据库MEDLINE(MedicalLiteratur
2、eAnalysisandRetrievalSystemOnline)的文献总数目前已超过1800万篇,这些文本中所蕴含的生物医学知识是对海量的生物医学数据进行分析的知识宝库。但是通过关键词在MEDLINE中或者互联网上进行检索,只能从大量文档集合中找到相关的文件列表,这些文本中所蕴含的大量知识并不能直接展现给用户。因此,提供从大规模生物医学文献中自动获取相关知识的有效工具是一项迫在眉睫的任务。生物医学文本挖掘技术通常涉及到信息检索、信息抽取、数据挖掘、文本分类、假设生成以及自动文摘等技术。信息检索用于识别相关文本。信息抽取用于识别实体、关系、事件等信息。数据挖掘则从结构化信息中识别出相互间
3、的关联[1]。文本分类用于将海量的文本按照用户筛选粒度的大小进行快速的分类。假设生成可以从文献中挖掘出实验条件和实验结果,便于生物学家通过生物实验进行验证。自动文摘是计算机自动在大量文献中对用户感兴趣的信息进行摘要,节省研究者阅读的时间,在有限的文摘中展现用户需要的知识。.........2生物医学命名实体识别方法2.1引言生物医学领域文献数量的快速增长促进了文本挖掘的应用。生物医学命名实体识别任务做为其他挖掘任务如人类基因/蛋白质标准化、关系抽取和假设生成的关键步骤,面临着很大的挑战。目前,命名实体识别在生物医学领域和新闻领域存在着巨大的差距。新闻领域中命名实体识别系统可以达到96%的F
4、值[78],而在生物医学领域中,最好的结果介于75%和85%之间[1]。生物医学文献中书写的不规范性、缩写词、描述习惯等问题导致生物医学命名识别存在很大的困难。当前用于生物医学命名实体识别任务的方法分为三大类。主要有基于词典的方法[79]、基于规则的方法和基于统计的机器学习方法[80]。采用基于词典的方法直接对文本进行匹配简单而精确,但是由于词典的容量有限,导致召回率很低。基于规则的方法依赖于领域专家的知识,并且不适于移植到其他的命名实体类型和领域。机器学习方法在自然语言处理任务中取得了良好的表现。机器学习方法能够识别出标准词典中不包含的隐藏的生物医学实体。2.2基于双层模型的实体识别方法
5、本章将生物命名实体识别分为两个任务:实体边界探测和语义标识。在探测实体的边界阶段,将所有的实体都识别为一种类型。在语义标识阶段,将第一阶段识别到的实体分别识别为具体的实体类型。为了提高精确率和召回率,本章在两个阶段都对特征集合进行了探索。半马尔科夫条件随机场模型通过Viterbi的动态规划算法求取结果。Viterbi算法是一种寻找隐藏状态的最佳序列的动态规划算法。本章对基于条件随机场和半马尔科夫条件随机场的双层模型在每一层都进行了详细的实验对比。本节介绍了条件随机场和半马尔科夫条件随机场的定义,并对实体识别方法进行了描述。3基于文本发现的疾病本体标注...........413.1引言..
6、................413.2疾病本体标注方法..................433.3结果与讨论.....................503.4本章小结..........................564基于文本发现的疾病语义关系挖掘...........584.1引言.................................584.2疾病语义关系挖掘方法.......................605生物医学文本中疾病网络的假设生成...........685.1引言.............................685.2基于文本分类和
7、概念共现的假设生成方法................705生物医学文本中疾病网络的假设生成5.1引言随着科技水平的不断提高,科研方向逐渐细分,科研领域更加面向专业化,科技文献的数量也在快速增长,大量的潜在关联关系隐藏在表面上看来没有任何联系的文献中。另外,文献的数量过大,对文献进行人工分析具备不完备性和参考数量有限的问题。因此,事实上存在着有些知识隐含在文献中不为人们认识。“基于文献的假设生成”揭示蕴含于公开发表的文献
此文档下载收益归作者所有