资源描述:
《基因聚类分析中数据预处理方式和相似度的选择关》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、f1.鱿并乎选瓜第,6卷第3期2006年3月基因聚类分析中数据预处理方式和相似度的选择关``“2杨春梅万柏坤高晓峰天津大学生物,300072;医学工程与科学仪器系天津.roeetron.2Motola(China)EliesLtd天津300457摘要聚类分析是基因表达数据分析研究的主要技术之一选择恰当的数据预处理方式和相似,.,性度量是获得高质量聚类结果的前提采用具有外部标准的基因表达数据集分别以Peasron,、一相关系数和Eud记ean距离为相似度以校正的Rand指数比较了使用分层聚类K均值聚类和.S、:SOM聚类算法对经过行标准化列标准化和对数化处理后
2、数据的基因聚类质量结果表明一,一.,K均值聚类和SOMS聚类质量显著优于分层聚类SOMS聚类质量稍好于K均值聚类而且分,一,层聚类偏好于Peasron相关系数准则和行标准化处理而应用KSOMS算法时则最均值聚类和.好是对数据进行对数化处理、并以Eudidean距离为相似性度量准则上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.关键词基因表达聚类分析数据预处理相似度aRdn指数,,一随着人类基因组计划的实施和人基因组工作草析如分层聚类(hierarehiealclustering)K均值,一,图的完成生命科学已进人了产生大量基因表达数聚类(Kmea
3、nselustering)主成分分析(prineipal.、,-据生命信息量爆炸性增长的时代呈指数增长的eomponentanalysisPCA)及自组织映射(self、、、z,6,7.生命信息也为生命数学物理化学和信息等科organisngmapssoMS)等巨〕但由于不同聚类,,,学领域提供了巨大的研究平台科学家的主要工作算法甚至同一聚类算法使用不同参数一般都将.,.就是从这些数据信息中去探索生命的奥秘其中(clustS)产生不同的类别er故生物学家面对大量基DNA芯片技术因其能对大量的基因表达谱进行同因表达数据集的第一个棘手问题即是如何选择合适.步、快
4、速测量,同时提供成千上万条基因的表达水的聚类算法然而,目前尚未有达成共识的统一性平,而被广泛应用于生命科学的各个领域,产生了指导方针闭.海量的基因表达数据:l,2〕.如何分析和处理这些数基因表达聚类分析的第一步是对芯片试验所,,,据从中提取有用的生物学或医学信息已成为后产生的基因表达矩阵进行预处理以确保基因表.基因组时代研究的瓶颈3[,`」达水平的可比性川.目前,数据预处理方法可分聚类分析技术是目前基因表达分析研究的主要为对原始数据作标准化处理和取表达比率的对数.计算技术之一4,[5〕它能将功能相关的基因按表达值两大类.其中标准化包括对行(基因表达矢量)谱的
5、相似程度归纳成共同表达类别,有助于对基因和列(样品表达矢量)进行标准化处理两种情况.功、、,能基因调控细胞过程及细胞亚型等进行综合此外常规的基因表达聚类分析算法基于个体间研究.有多种聚类算法已被成功地用于基因表达分的相似性度量(简称相似度)来衡量两个表达谱的一一,一一200507Zx收稿20050923收修改稿,:一天津市重点建设学科基金资助(批准号200131).*,,一:e.aantuucn通讯作者Emilbkw@jd1.戮并乎选展第,6卷第3期2006年3月,、、相似程度如Pearson相关系数Euelidean距离DNA用含酵母全基因组的微阵列检测了
6、这20个试.cne、,aJkkif相关信息嫡等川其中应用较成功的验样品中GAL通路受扰动时的mRNA表达水平,.earsonEueean〔’0`’]7是P相关系数和lid距离由并使用最大似然估计法鉴别出9条差异表达基.1Yeung巨5〕Genentoogy(GO)于不同的聚类算法可能偏好不同的数据预处理方因等从oi数据库列表,,,,中搜索出其中205条基因分属于生物合成(蛋白式和相似度因此在基因表达聚类分析时选,质、(择合适的数据预处理方法和相似度至关重要是代谢与修饰)能量通路碳水化合物合成与分.、2,4获得正确聚类结果的前提,〕也是生物学家面解)核酸代谢及
7、细胞转运等个功能类别本文,对大量基因表达数据集的第二个棘手难题.选取这205条基因的表达矢量构成Gal数据集组,本,“成205X20基因表达矩阵并将这4个功能类作为文针对上述两个难题采用具有外部金.”,外部标准类标准的数据集比较了几种常用聚类算法在不同(3)鼠中枢神经系统发育数据集(CN)S数据预处理方式和相似性度量准则下的分析质,为探索哺乳动物中枢神经系统发育中潜在的复量以期为基因表达聚类分析的实施提供有价值、,的参考依据.杂自组织过程研究基因家族间可能的功能关系Wen等〕l6[基于生物学先验知识精选出对鼠颈部脊一,髓发育重要的4个基因家族(NeuroGl
8、ialMarkerS1材料与方法eurotranst