基因表达谱芯片的数据分析

基因表达谱芯片的数据分析

ID:30414889

大小:87.28 KB

页数:10页

时间:2018-12-29

基因表达谱芯片的数据分析_第1页
基因表达谱芯片的数据分析_第2页
基因表达谱芯片的数据分析_第3页
基因表达谱芯片的数据分析_第4页
基因表达谱芯片的数据分析_第5页
资源描述:

《基因表达谱芯片的数据分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基因表达谱芯片的数据分析吴斌,沈自尹,复旦大学华山医院中西医结合研究所上海市200040国家自然科学基金资助项目,No.90409001通讯作者:沈自尹,200040,上海市复旦大学华山医院中西医结合研究所.wuubin@yahoo.com.cn电话:021-62489999-6311收稿日期:2005-09-10接受日期:2005-12-02摘要基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律,本文根据数据分析的目的,从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述,并对每一种方法的优缺点进行评述,为正确选用基因芯片

2、数据分析方法提供参考.关键词:基因芯片;数据分析;差异基因表达;聚类分析;判别分析吴斌,沈自尹.基因表达谱芯片的数据分析.世界华人消化杂志2006;14(1):68-740引言基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系.然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1].基因芯片的数据分

3、析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下:(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法.1差异基因表达分析(differenceex

4、pression,DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等.1.1倍数变化(foldchange,FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio是cy3/cy5的比值,又称R/G值.一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变.由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6].处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等.

5、该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7].此外倍数取值是任意的,而且可能是不恰当的,例如,假如以2倍为标准筛选差异表达基因,有可能没有1条入选,结果敏感性为0,同样也可能出现很多差异表达基因,结果使人认为倍数筛选法是在盲目的推测[8,9].1.2t检验(t-test)差异基因表达分析的另一种方法是t检验[10],当t超过根据可信度选择的标准时,比较的两样本被认为存在着差异.但是t检验常常受到样本量的限制

6、,由于基因芯片成本昂贵,重复实验又很费时,小样本的基因芯片实验是很常见的,但是小样本导致了不可信的变异估计.为了克服这种缺点,研究者提出了调节性t检验(regularizedt-test),它是根据在基因表达水平和变异之间存在着相互关系,相似的基因表达水平有着相似的变异这个经验,应用贝叶斯条件概率(贝叶斯定理)统计方法,通过检测同一张芯片临近的其它基因表达水平,可以对任何基因的变异程度估计进行弥补.这种方法对于基因表达的标准差估计优于简单的t-test和固定倍数分析法[11].1.3方差分析(analysisofvariance,ANOVA)方差分析(ANOVA)

7、又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义,方差分析可用于差异基因表达研究[12].方差分析需要参照实验设计,参照样本常用多种细胞的mRNA混合而成,由于所有的细胞同时表达的基因众多,结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性,因此,增加参照样本的细胞不会提高参照样本的代表性[13].方差分析能计算出哪些基因有统计差异,但它没有对那些组之间有统计差异进行区分,比如用单因素方差分析对A、B、C、D4组进行分析,对于某一个基因,方差分析能够分析出A组与B、C、D组之间有差异,但是B

8、、C、D之

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。