基因功能富集分析的研究进展.doc

基因功能富集分析的研究进展.doc

ID:52686547

大小:39.50 KB

页数:17页

时间:2020-03-29

基因功能富集分析的研究进展.doc_第1页
基因功能富集分析的研究进展.doc_第2页
基因功能富集分析的研究进展.doc_第3页
基因功能富集分析的研究进展.doc_第4页
基因功能富集分析的研究进展.doc_第5页
资源描述:

《基因功能富集分析的研究进展.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基因功能富集分析的研究进展随着高通量测序技术的飞速发展及相关技术的广泛应用,生物医学相关研究领域已进入了大规模组学数据呈指数增长的后基因组时代[1].一方面,这使得生物医学研究得以从单个基因的分析转变为系统水平上的研究,对于揭示生物医学的基本分子机制具有重要推动作用.但另一方面,如此庞大的数据量也给信息的有效提取和分析带来了巨大的挑战.为了从庞杂的组学数据中发掘规律,研究者通常会对基因功能进行富集分析,期望发现在生物学过程中起关键作用的生物通路,从而揭示和理解生物学过程的基本分子机制.现在,基因功能的富集分析已成为功能组学数据分析的常规手段,并随着高通量组学数据的发展,如从基

2、因芯片数据到RNA-seq数据的转变,开发出了一系列相应的分析方法,最早开发的过代表分析(over-representationanalysis,ORA)仅针对一组基因,而高通量组学数据的发展使得功能集打分(functionalclassscoring,FCS)应运而生,随着对于生物学通路及复杂网络的深入完善和了解,又相继开发了基于通路拓扑结构(pathwaytopology,PT)和基于网络拓扑结构(networktopology,NT)的方法.本文拟对现有的基因功能富集分析方法进行简要的总结评述,以方便研究者了解相关领域,并选择适合的研究工具.1基因功能富集分析的基因功能

3、数据库和数据类型基因功能富集分析中的基因功能指的是众多代表一定的基因功能特征和生物过程的基因功能集(geneset)[2].由这些基因功能集构成的常用基因功能数据库有GO[3],生物学通路,包含生化反应、代谢或信号通路的KEGG[4,5],Reactome[6],Biocarta[7]等,整合数据库,如MsigDB[8]等.在功能组学研究中,研究者通常会获得一组他们感兴趣的基因,如在疾病和正常组织中有显著差异表达的基因,在药物或外界环境刺激下特定组织中表达水平有显著异常的应激基因等.要揭示其中隐含的生物学分子机制,研究者可针对这组感兴趣的基因,进行基因功能的富集分析,发现在其

4、中有显著富集的特定生物学通路,从而从分子机制上来解释所观察到的生物学现象.除此以外,高通量组学技术,如基因表达芯片(microarray)或RNA-seq,可获得基因组中所有基因的表达水平.为充分利用获得的高通量数据,研究者也可以直接针对全基因组基因表达谱信息来进行富集分析,从中鉴定出案例和对照状态下在研究对象中发生显著表达差异的生物通路,从而揭示其中的生物学分子机制.针对这些不同的数据需要开发不同的功能富集分析方法.例如,对于基因表达芯片和RNA-seq,在富集分析过程中原始数据的处理方式是不同的.其中,基因芯片记录的是连续的荧光信号强度值,而RNA-seq记录的是RNA序

5、列的读段个数[9],需要采用不同的统计模型进行分析.即使对同一类型数据,基于不同的假说和统计方法,研究者也开发出了不同的富集分析算法和模型.现在已有上百种富集分析的方法和工具,一方面极大地促进了研究者的科研工作进展,另一方面也给研究者在选择合适的研究工具时带来一些困扰.以下将针对现有方法进行分类综述,具体方法及工具详见表1.2基因功能富集分析方法基于算法的分类基因功能富集分析的方法基于数据来源和算法大致可以分为4大类:ORA,FCS,PT,NT的方法(图1).下文将对每类算法分别介绍.2.1过代表分析(ORA)方法(1)算法原理.作为最早出现的一类基因功能富集方法,ORA针对

6、的数据是一组感兴趣的基因(基因列表),其目的是在这组基因中发现有明显统计学上富集的基因功能集.其基本步骤包括先将给定的基因列表与待测功能集做交集,找出其中共同的基因并进行计数(统计值),最后利用统计检验的方式来评估观察的计数值是否显著高于随机,即待测功能集在基因列表中是否显著富集.常见的统计学方法有卡方检验,Fisher精确检验和二项分布检验[45],而其中最为广泛使用的是Fisher精确检验,即利用2×2的列联表,根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集.(2)常用方法和工具.目前有许多工具及数据库提供ORA的使用,包括DAVID,GOstat,Gen

7、-MAPP等.其中DAVID提供的基因功能集数据库最为全面,不仅包含大量不同物种的基因功能注释信息,也涵盖了主流的生物通路注释库如GO条目和KEGG通路,而且还提供了基因名称转换功能,及良好的结果展示界面.因而,DAVID已成为目前应用最广泛的ORA分析工具.(3)优缺点.ORA方法基于完备的统计学理论,具有结果稳健、可靠的优点.但目前常用的基于统计检验的ORA方法也有一定的局限性,包括:(ⅰ)在对基因进行计数时,丢失了基因的表达水平或表达差异值等基因属性信息;(ⅱ)把通路中的所有基因进行同等对待,忽视

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。