急性白血病相关基因的文本挖掘分析

急性白血病相关基因的文本挖掘分析

ID:31475634

大小:1.37 MB

页数:6页

时间:2019-01-11

急性白血病相关基因的文本挖掘分析_第1页
急性白血病相关基因的文本挖掘分析_第2页
急性白血病相关基因的文本挖掘分析_第3页
急性白血病相关基因的文本挖掘分析_第4页
急性白血病相关基因的文本挖掘分析_第5页
资源描述:

《急性白血病相关基因的文本挖掘分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、30.急性白血病相关基因的文本挖掘分析一、前言中国医科大学信息管理与信息系统(医学)系(110001)闰雷+崔雷近年来,随着快速序列测定、基因重组、多维核磁共振等技术的应用,分子生物学得到了迅猛的发展,人类基因组草图和多种模式生物基因组的测序,产生了大量核酸和蛋白质数据。在分子生物学领域里,高密度微列阵技术的提出,使得人们首次可以同时测量特定基因组的全部或大部分基因的表达水平。在典型的微列阵实验中,早期的研究多采用聚类分析的方法来探索基因之间的相似性,或者根据基因区分不同表现型(如疾病类型或细胞类型)的能力来辨认基因。这种条件下常用的聚类分析的方法主要是系统聚类法、自组

2、织图和K一均值法。这些方法最终都将基因分成了组(或类别),它们之间的关系完全是以微列阵的实验数据为基础的。但是,通过这种方法对基因分组或分类的目的是了解生物学机制或者为其标注上“生物学含义”。在这一点上,对实验室数据的聚类分析结果如何解释成为困扰生物学专业人员的难题之一。在生物数据以超乎寻常的速度增长的同时,生物医学文献也正在以爆炸的速度增长着。大量的文献既给获取相关信息带来机会,但同时也带来了在海量文献集中有效定位感兴趣的信息的困难,没有研究人员能够处理如此巨量的信息特别是那些跨学科的信息。综上所述,一方面,对实验室聚类分析数据的解释上存在着困难,另一方面,文献中又蕴藏着大量

3、的信息和知识,同时也开发出诸多的挖掘技术,如果将三者结合起来,即将文本数据挖掘技术应用到生物学实验数据的解释,有可能成为目前解决困扰生物学专业人员的有效途径之一。为了寻找通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法,本文以急性白血病为例,通过主题词和自然语言两种途径以疾病与基因的共现关系为基础进行聚类分析,挖掘基因与疾病之间的关系,并对两种算什么的有效性进行评价。二、实验方法1.研究主题以急性白血病(包括急性淋巴细胞白血病(AcuteLymphocyticLeukemia,ALL)和急性髓样白血病(AcuteMyeloidLeukemia,AML)为研究主题,

4、通过对主题词共现关系进行聚类挖掘相关文献中的基因与疾病之间的关系。2.研究样本通过PubMed(http://www.ncbi.nlm.nih.gov/PubMed)以“Leukemia[majr】ANDgenes【majr]”为检索策略检索相关文献,检索时间为1966年到2005年9月6日,共检到相关文献3529篇,将检索结果分别保存为XML格式作为挖掘样本。3.研究方法通过共词的方法挖掘概念之间的联系。所谓共词,即两词在文献的同一字段(或范围)内共同出现。对于主题词而言,共词即两主题词在同一篇文章中共同出现,这里提到的主题词即医学主题词,是美国国立医学图书馆(NLM)对其

5、文献数据库PubMed所收录医学文献进行人工标引的能代表文献所讨论内容的规范化的词,主题词在文献中位干特定的主题词字段,NLM在标引主题词时会对代表文献主要内容的主题词进行加权标引,即主要主题词。体现在标引方面为加“・”进行标注,主题词的字段标记及星号标记给我们处理主题词共词提供了入El。而如果两主题词在多篇文章中多次共同出现,则可’闰雷(1976一),硕士,讲师。本文受国家自然科学基金项目“运用文本数据库中元数据关联规则进行知识发现的研究”(No.70473101)资助。.108-认为两个主题词之间有密切联系。NLM的医学主题词具有完善的树状结构,各级主题词之间具有明确的上下

6、位类关系,根据主题词的树状结构可以方便地根据研究目的筛选研究类别、将主题词调整到研究需要的层次。4.样本的处理对XML格式的样本,使用书目信息共现挖掘系统进行分析处理,根据主题词的树状结构从中筛选急性白血病类和基因类主题词进行处理,选取出现频次大于等于3的主要主题词共75个进行统计,生成词篇矩阵,矩阵局部如表l所示,矩阵中列为所提取的主题词/副主题词对,行为样本文献的PMID号,数据1表示该主题词在该篇文章出现,0表示该主题词在该篇文章中没出现。聚类分析过程可根据两词是否在同一篇文章中同时出现判断其共词关系。表l急性白血病类主题词/副主题词与基因类主题词/副主题词词篇矩阵(局

7、部)100221004910086100921021610233Leukemia,Nonlymphocytic,Acute/GeneticsLeukemia,Lymphocytic。Acute/GeneticsGenes.p53/nullGenes,ras/nullGenes。abl/null00O000O000000OO00000000l000lOO5.聚类分析使用统计软件Spssl1.5对所生成的词篇矩阵采用系统聚类法中二值(Binary)资料测量中的hamann变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。