欢迎来到天天文库
浏览记录
ID:62123183
大小:739.50 KB
页数:62页
时间:2021-04-17
《生物信息学中的数据挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、生物信息学中的数据挖掘李荣2001年12月后基因组时代的研究方向基因组怎样产生功能的主要问题:不同基因,不同细胞过程中的功能基因调控方式基因与基因产物的互作用方式以上2种网络基因表达水平在不同细胞类型和状态下的不同基因芯片建立基因表达模式:基因表达矩阵基因为行情形为列基因表达分析举例1.发现某些基因的表达与某癌症相关2.探索哪些情况影响这些基因的表达探索哪些基因有相似的表达模式3.调查哪些化合物(潜在的药物)能降低这些基因的表达基因表达矩阵分析不同基因的表达模式比较:行比较不同情形的表达模式比较:列比较以上两种结合(前提:数据规范化)比较-
2、发现相似或不同行比较:两行相似意味两基因共调控或功能相关列比较:哪些基因的表达变化了相似性(距离)的度量将对象(行或列)作为n维空间的点或n维向量计算点间距离欧几里德距离:结果明显但非最佳将n维向量作为随机变量用相关系数计算(与n维向量间的角度有关)将n维向量长度规范化为1,则以上两种相关相似性(距离)的度量无如何选择最佳距离度量的理论最合适距离度量方法不一定存在选择依赖于具体问题已知的共调控基因标准集和基因调控网络模型可能有助于发现潜在的相似性度量矩阵分析无监督方法:聚集有监督方法:构造分类器有其他信息,如功能分类,作为行或列标签无监督分
3、析:聚集用相似性分组可看作维规约层次聚集、k-means、自组织图桶方法专用方法:如在图中发现近似系的方法聚集结果中一个聚集的可视化表示例K-means方法:3000基因15个时间点,聚为30类层次聚类:8600基因80次实验,10个类选择有趣的基因比较两个或多个情形,得到表达变化的基因双路(two-way)聚类-基于分片的聚类行聚类与列聚类结合哪些基因在列聚类中做重要如:6500个基因,40肿瘤,20正常组织有监督分析:构造分类器线性识别决策树支持向量机(SVM)邻居分析有监督分析-优化属性(基因)多于对象(情形)不限制分类器的复杂度也可
4、找到优良的识别器可以构造简单的分类器,满足简单性与分类精确性一个新算法用无监督聚类得到表达模式空间的层次结构用有监督方法发现与聚类结构相关的最佳阈值发现调控因素从聚类中发现基因功能原理:识别推定的调控信号方法1基于选定的度量聚类基因2在聚类的基因中提取推定的激发序列3在过表达的聚类中发现序列模式4用统计显著性标准评价发现的模式的质量计算分析的步骤Step1聚类表达数据Step2发现序列模式Step3发现显著性阈值,其中会重复Step2Step4模式选择Step5模式分组Step6评价发现的模式结论基因表达分析方法处于初级阶段使用粗糙未系统地
5、研究合适的相似性度量方法评估度量质量的方法来自不同平台的数据的比较发展方向分析方法大量涌现可靠的相似表达分析方法度量方法的研究聚类结果的评价方法系统化分析基因的方法逐基因分析方法被网络式分析取代结合生物知识深入分析基因表达数据聚类分析算法的评价系统、定量地评估聚类算法的结果方法将某个聚类算法作用于各实验数据中,保留一种情况,用于评价算法预测能力三个聚类算法:平均连接层次聚类、CAST、自组织图三个公共数据库传统方法:用生物学知识可视化地评价(1)构建模拟数据集D(i,j)αi:基因I的平均表达水平βj:每个情形(实验)j的平均表达水平dij
6、:用αi+βj为均值,1为参数的标准正态分布所以模拟数据集无本质的模式。传统方法:用生物学知识可视化地评价(2)将计算作用于模拟数据集结果可视化左图:原数据聚集结果右图:模拟数据聚集结果之前无系统的数据驱动的方法定量地评估提出一种定量的数据驱动的方法评估与比较不同聚类算法的算法相似矩阵预聚类将两个基因表达原始序列归约为一个值:对相似数聚类算法评价的历史方法外部标准分析将聚类结果与已知的“金”标准比较内部标准分析用给定数据集内的信息评价问题描述n个基因,m个实验共调控基因的表达水平相似比较聚类算法A与算法B的结果方法用m-1个实验聚类用剩余的
7、1个实验评估算法的预测能力同一聚类的基因在此实验中表达是否相似优良指数FOM(figureofmenz)FOM情形0,1,…,(e-1),(e+1),…,(m-1)被用于聚类情形e用于评估产生K个聚类C1,C2,…,CK聚类大小为S1,S2,…,SKR(i,j)表示基因i在情形j的表达FOM(e,k):e情形验证K个聚类的FOM:聚类Ci的基因在情形e的平均表达续m个情形轮流作为校验情形总FOM越小越好由上图可知:B方法优于A方法聚类质量与聚类数有关对给定数据集预先不能确定最佳聚类数小结本质为评价分类器的精确度并假设对象的标签轮流隐藏每个对
8、象的标签用分类器统计对象的标签作者提出的算法不预先假设任何基因的信息用FOM评估可用于任意聚类算法与相似矩阵实验用算法CAST、重复算法、K-means随机聚类算法:情形e下聚类
此文档下载收益归作者所有