第四节基因表达数据聚类分析

第四节基因表达数据聚类分析

ID:6342469

大小:502.50 KB

页数:24页

时间:2018-01-10

第四节基因表达数据聚类分析_第1页
第四节基因表达数据聚类分析_第2页
第四节基因表达数据聚类分析_第3页
第四节基因表达数据聚类分析_第4页
第四节基因表达数据聚类分析_第5页
资源描述:

《第四节基因表达数据聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第四节基因表达数据的聚类分析基因表达数据主要来自于两个方面,一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA的数据(SchenaEetal,1995)。表达系列分析SAGE和差异显示(KozianandKirschbaum,1999)、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。从机器学习的角度来看,有两种基本的聚类分析(Kaufman1990),即所谓有教师聚类和无教师聚类。在有师聚类中,对于每一类有一个参考模式,

2、对于一个未分类的向量,通过计算选择一个最接近的参考模式,并将该向量归入该参考模式所对应的类,这实际上是一个分类问题。而真正的聚类分析是一种无师学习(或无监督学习),没有关于聚类的先验知识,需要聚类算法根据样本之间的距离或者相似程度进行自动分类(傅京孙,1990;李介谷等,1986)。基因表达数据聚类分析一般包括以下几个步骤:(1)确定基因表达的数据;(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似;(3)选择算法进行聚类分析;(4)显示分析结果。以下着重讨论对表达型基因芯片实验数据的处理和分析。在一种基因芯片上往往含有成百上千个基因

3、探针,一次可以同时检测大量基因的表达。利用同一种芯片在不同条件下(不同时间,不同细胞,不同外界作用)进行基因表达实验,搜集表达数据,将原始数据放在一起,形成一个数据表格。表格的每一行代表一个基因,是一个基因在不同实验条件下表达的“快照”,而每一列则代表各个基因在同一种实验条件下的表达水平。从数学形式上来看,表格的一行数据就是一个向量,常称其为一个基因的表达模式,而表格本身就相当于一个矩阵。聚类分析就是将这些向量按照相似程度进行归类。对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。通常情况下,相似

4、往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。所有的距离值的集合可以构成一个距离矩阵。有两种方式计算距离矩阵:(1)表达矩阵的任意两行数据之间的距离可用以确定具有相同表达方式的基因簇;(2)表达矩阵的任意两列数据之间的距离可以确定基因表达实验条件的差别。在基因表达数据聚类分析中,将具有相似表达模式的基因放在同一组。首先选择一个计算基因表达相似性的度量。常见的相似性度量有欧几里德距离、点积、

5、相关系数等。欧几里德距离是一个通常采用的距离的定义,与测度的选择无关。假设有两个基因表达模式分别为X=(x1,x2,…,xm)和Y=(y1,y2,…,ym),距离函数d(X,Y)必须满足如下条件:d(X,Y)≧0(9-19)d(X,Y)=d(Y,X)(9-20)d(X,Y)=0iffX=Y(9-21)d(X,Y)≦d(X,Z)+d(Z,Y)(9-22)两个表达模式之间的欧氏距离为:(9-23)相关系数为(9-24)(9-25)其中,Goffset是G的各分量的均值,FG是标准方差。用上述两种相似性度量,可以找出表达模型相同或者变化趋势相同的基因

6、,如图9.9(a)、(b)所示。欧氏距离、相关系数与分子生物学中两个基因的共表达(coexpressed)概念相一致。在有些情况下,两个基因的调控输入一样,但是调控结果不一样,甚至相反。如何找出具有这类关系的基因呢?互信息可能是一种有用的度量指标,其定义如下(9-26)(9-27)MI(X,Y)是向量X和Y的互信息,H(X)是X的熵。(a)(b)(c)图9.9两个表达模式之间的关系(a)相似;(b)变化趋势一致;(c)两个基因的调控制输入一样,但是调控结果不一样,甚至相反。假定有一组样本{X1,X2,…,XN},要求将这些样本分成M个类,由于存

7、在多种可能的分类方案,到底那种分法最好?这就必须定义一个准则函数,聚类问题就变成对这个准则函数求极值的问题。最简单的准则是误差平方和准则,其准则函数定义如下:(9-28)其中M为聚类数,fi表示第i个聚类的样本集合,mi是该集合中所有样本的中心。显然,使J最小化的聚类就是最好的聚类。当每类的样本都很密集,而各类之间又有明显的分离,使用这种准则进行聚类可得到最好的结果。当各类界限不清楚时,利用这种准则得到的聚类结果不能令人满意。聚类结果的有效性分析是聚类分析方法的瓶颈,目前一般采用分离度和紧致性来评价结果的好坏。如果在样本空间中,各个聚类彼此分割

8、得比较远,而每个聚类中的样本又彼此靠近,则可以认为聚类效果好。因此可以用类间距离与类内距离的比值作为衡量聚类结果的标准。基因表达模式的分类有效性分析的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。