欢迎来到天天文库
浏览记录
ID:52457560
大小:526.99 KB
页数:7页
时间:2020-03-27
《基因芯片数据分析中的标准化算法和聚类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基因芯片数据分析中的标准化算法和聚类算法北京大学生命科学院生物信息专业王向峰学号:10211058摘要:基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高效,高通量的检测基因表达行为。芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化,芯片内标准化根据目的不同可分为消除染色偏差的LowessNormalization,消除点样针头引起的空间差异的Print-tipNormalization。常用的芯片间标准化有QuantileNormalization,GlobalNormalization。芯片数据分析中常见的聚类算法有分层聚类(Hie
2、rarchicalclustering)、K均值聚类(K-meansclustering)、自组织图谱SOM(selforganizingmap)、PCA(principlecomponentanalysis)等等。所有的聚类方法归结为有监督的学习和无监督的学习两种方法。第一部分基因芯片的数据标准化(Normalization)对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。标准化的方法根据芯片的种类、数据处理的
3、阶段和目的不同而有所差异。这里主要讨论一下双荧光染色(RedandGreenChip)的cDNA微列阵(cDNAmicroarray)的标准化方法。一、实验数据的预处理(datatransformation)双色cDNA芯片(two-colorcDNAmicroarray),指对参照基因(referencegene)和样本基因(samplegene)标上绿色和红色荧光标记。参照基因的制备主要是提取不同组织的不同时期的细胞进行培养(CulturedCell),以保证绝大部分的基因可以表达。样本基因是根据试验设计的目的从不同组织,不同发育阶段,不同条件下培养的细胞中提取的cDN
4、A样本。通过样本基因对参照基因的比值,而判断不同条件下的基因表达量的变化。扫描仪对基因芯片的图像进行扫描,根据每个点的光密度值尝试相对应的绝对表达量(intensity)。然后图像分析软件通过芯片的背景噪音以及杂交点的光密度分析,对每个点的intensity校准,然后取样本基因和参照基因的比值(R/Gratio),作为每个样本基因的相对表达量(relativeintensity)。选择相对表达量,可以在一定程度上减少芯片之间,荧光染色,扫描所产生的系统偏差。然后对比值取对数,log10=,选择以2为底的对数方便于对2基因表达量变化的研究,比如R/G=1,则log10=,即认
5、为表达量没有发生变化,当R/G=22或者,R/G=0.5,则log值为1或–1,这是可以认为表达量都发生两倍的变化,只是一个是受到诱导的正调控,另一个受到抑制的负调控。以下的数据处理都是对logR/Gratio的形式进行分析。2二、标准化(normalizationofMicroarray)1、数据过滤(datafiltering)通过图像扫描软件,将每个杂交点的光强度转化为表达量时,会产生负的数据值或者0,这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化的,所以过滤掉这些脏数据是非常必要的。忽略这些点的信息并不会对整体的分析产生影响,因为这些极弱的信号
6、不足以为基因表达的差异提供证据。2、MAplotMAplot作图是用来观察芯片数据的分布情况,其中:M=logRG/2AR=×logG2以M(logratio表达量)为纵坐标,A(logintensity表达量)为横坐标做出数据的散点分布图。3、芯片间的数据标准化(Crossslidenormalization)由于五种组织(seeding、tiller、root、panicle1、panicle2)是分别在五张芯片上作杂交试验的,所以第一步的标准化是将五张试验芯片的数据调整到同一水平,常用的方法是平均数、中位数标准化(meanormediannormalization)。
7、即:将五组实验的数据的logratio中位数或平均数调整为0。log()TT′=−log()mean22iialog()T′=−log()Tmedian22iiaRT=iG(脚标a为每组实验数据)从以上两图的比较可以看出,中位数标准化,可以将每组数据调整到同一水平。4、平行实验数据的标准化一般芯片的杂交实验很容易产生误差,所以经常一个样本要做3~6次的重复实验。平行实验间的数据差异可以通过QuantileNormalization去处掉。总平行实验的前提条件是假设n次实验的数据具有相同的分布,其算法主要分为三步:(
此文档下载收益归作者所有