课生物信息学的基因聚类分析

课生物信息学的基因聚类分析

ID:40829491

大小:522.10 KB

页数:34页

时间:2019-08-08

课生物信息学的基因聚类分析_第1页
课生物信息学的基因聚类分析_第2页
课生物信息学的基因聚类分析_第3页
课生物信息学的基因聚类分析_第4页
课生物信息学的基因聚类分析_第5页
资源描述:

《课生物信息学的基因聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基因表达数据的聚类分析基因表达数据主要来自于两个方面:一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA的数据。表达系列分析SAGE和差异显示、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。从机器学习的角度来看,有两种基本的聚类分析:有监督聚类无监督聚类基因表达数据聚类分析一般包括以下几个步骤:(1)确定基因表达的数据(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似(3)选择算法进行聚类分析(4)显示分析结果。对数据进行聚类分析之前,必须将包含在基因表达矩阵

2、中的数据进行相似程度分析,并且对分析结果进行量化。通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。几种常用的聚类方法1.简单聚类2.层次式聚类3.K平均聚类4.自组织映射神经网络5.模糊聚类分析方法6、聚类分析结果的树图表示1、简单聚类假设有n个基因表达数据向量分别为X1,X2,…,XN令任意一个基因的表达向量为第一个聚类的中心依次处理其它基因在处理第i个基因时,首先计算该基因的表达数据向量与现有各类中心的距离假设与第j类的

3、距离Dij最小,并且Dij

4、

5、X-Zj(l)

6、

7、<

8、

9、X-Zi(l)

10、

11、(i=1,2,…,K,ij),则将X所代表的基因归于第j类。按照上述办法处理所有的基因;经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心:对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。4、自组织映射神经网络图9.12SOM聚类结果示意5、模糊聚

12、类分析方法主要过程:(1)建立模糊相似矩阵(2)生成模糊等价矩阵(3)构建动态聚类图6、聚类结果显示基因表达模式聚类结果图示分类分析方法有监督学习疾病诊断、细胞类型识别样本分类:(例)急性淋巴细胞白血病(ALL)急性髓性白血病(AML)例:两类划分问题:基因的选择?分类的方法?贝叶斯分类法支持向量机(SVM)k最近邻法神经网络方法决策树方法投票分类法(多分类器)7、主成分分析PCA图9.13主元素对应特征值图示分析基因表达数据发现与疾病直接相关的基因发现这些基因的活动规律基因调控网络分析一个基因网络由一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成,这些生物分子共同完成一些特定的细胞功

13、能任务。在实际分析过程中,往往以图这种数据结构表示基因网络,图中的节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质之间的相互作用。基因网络描述了特定细胞或组织中的功能路径,如代谢、基因调控,信号传导等。基因表达在化学催化中的作用代谢路径示例:脯氨酸的生物合成基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的

14、表达。多个基因的表达不断变化,使得细胞的生化状态不断地变化。一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因表达调控网络。基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网络。几种基因调控网络模型1、布尔网络模型ABCABC系统运行轨迹循环ABC111021113011400150006000前一个状态后一个状态作用规则(1)A激活B(2)B激活A和C(3)C抑制A2、线性组合模型线性组合模型是一种连续网络模型,在这种模型中,一个基因的表达值是若干个其它基因表达值的加权和。基本表示形式为:3、

15、加权矩阵模型加权矩阵模型与线性组合模型相似,在该模型中,一个基因的表达值是其它基因表达值的函数。4、互信息关联网络可以用距离或相关系数作为基因表达模式之间的相似性度量,还可以用另外一种度量形式,即用熵和互信息描述基因与基因的关联。一个基因表达模式的熵是该模式所含信息量的度量。设X是一个基因表达模式,用下式计算熵:5、基因调控网络实例真核生物生理过程的调控网络GeneNetGeneNet展示了协调方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。