欢迎来到天天文库
浏览记录
ID:39505746
大小:2.17 MB
页数:63页
时间:2019-07-04
《《差异表达基因分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第七讲QuantileNormalization使每张芯片/通道的强度值有相同的分布(intensitydistribution)QuantilenormalizationBeforeAfterQuantilenormalizationR语言和bioconductor差异表达基因分析单张cDNA芯片差异表达基因差异表达基因分析基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。通常采用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异,在双色荧光系统中,用Cy5/Cy3的比值
2、来衡量基因的表达差异,也称表达差异值。在Affymetrix等短的寡核苷酸芯片中,采用单色荧光标记的方式,实验组和对照组分别用两张芯片进行检测,表达差异值即为两张芯片的信号比值。噪声和芯片本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。必须设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的阈值。倍数法倍数法倍数法是比较常用的一种方法,因为比较简单和直接。但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别域值为2倍,则有可能找不到
3、几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断域值,又有可能增大假阳性率。这一方法没有考虑到差异表达的统计显著性。Z值法在一张cDNA芯片上一般都点了很多基因,其实这些基因中只有很小一部分表达有差异,所以一般都假设表达的比率值满足正态分布。Z=(X-µ)/σ.
4、Z
5、>=1.96在寡核苷酸芯片中,芯片上的基因在相应实验条件下或相应组织中也只是有很小一部分基因有表达,可以假定强度满足对数正态分布,同样可以对其作Z变换,使其具有统计意义。如果实验体系中没有一条差异表达的基因,Z值法还是会挑选出5%的差
6、异表达基因。这是因为在芯片实验中,总有一些由于背景噪声产生的假阳性点。如果实际上实验中有大量的基因发生表达改变,Z值法还是机械的找出5%的差异表达基因,丢失了一部分真阳性点。一般性的方法选择一个统计量给基因排秩来证明表达有差异为排秩统计量选择一个判别值,在它之上的值将被认为是显著的前面一个部分更为重要,所以研究的较多,方法也更多,后面那部分的方法稍微简单重复芯片(replicates)M值根据比率平均值或对基因排序。M值为信号强度比值的log2值,是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个
7、基因在重复实验中的不同芯片上表达水平的差异程度。例如,可能某一个基因在某一张芯片上M值很大,但在其他芯片上M值很小,其实这条基因并没有差异表达,但由于个别M值的影响,从而显示出一个差异表达的特性,造成假阳性。T值排序假如一个基因在几张重复芯片的M值都很小,但是这些M值非常接近,所以s值也非常小,这样可能会导致t值很大,从而会把这个本没有差异表达的基因误认为差异表达。修正的T值修正值由样本方差的均数和标准差估计而得。结果显示:在一个模拟的数据集中,虽然带有一些经验性质,但用修正t-统计量给基因排秩比用均数和
8、一般的t-统计量效果要好。单通道寡核苷酸芯片差异基因(两个样本直接比较)Affymetrix,illumina芯片由于有探针重复,可以利用统计方法计算出一个统计性的P值或者score值,筛选差异表达基因不同类样本差异基因识别评价一组数的统计量平均值标准差232.7198.2137.784.3218.6181.5216.787比较多组数的方法T检验:平均值F检验:方差SAM(significanceanalysisofmicroarrays)单通道Oligo芯片,尤其是affymetrix芯片数据分析用得较
9、多双通道cDNA芯片数据分析用得较多FalseDiscoveryRate(FDR)错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者P值,使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(FalseDiscoveryRate)的方法来判断差异基因。Multipletest(Pvalueadjustment)火山图(volcanoplot)Statisticaltest:Pval
10、ueFoldchange:Ratio其他方法B-statistics(Smyth,2004)BayesT-test(BaldiandLong,2001)SAMROC(Broberg,2002)Zhao-Panmethod(ZhaoandPan,2003)……ImprovedDetectionofDifferentiallyExpressedGenesTimeseriesmicroarraydataset聚类分析基因表达数据矩阵
此文档下载收益归作者所有