代谢组学数据分析的统计学方法.pdf

代谢组学数据分析的统计学方法.pdf

ID:52923716

大小:370.46 KB

页数:4页

时间:2020-03-31

代谢组学数据分析的统计学方法.pdf_第1页
代谢组学数据分析的统计学方法.pdf_第2页
代谢组学数据分析的统计学方法.pdf_第3页
代谢组学数据分析的统计学方法.pdf_第4页
资源描述:

《代谢组学数据分析的统计学方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国卫生统计2014年4月第31卷第2期代谢组学数据分析的统计学方法柯朝甫张涛武晓岩李康代谢组学是近年发展快速的一门学科,目前在医(4)相互作用关系复杂:各种代谢物质可能不仅学、植物学、微生物学、毒理学、药物研发等诸多领域中具有简单的相加效应,而且可能具有交互作用,从而增得到了广泛的应用E1-5]。代谢组学研究产生大量的数加了识别这些具有复杂关系的生物标志物的难度。据,这些数据具有高维、小样本、高噪声等复杂特征。(5)相关性和冗余性:各种代谢物并非独立存在,如何从复杂的代谢组学数据中提取出有价值的信息,而是相互之间具有不同

2、程度的相关性,同时由于碎片、筛选出潜在的生物标志物成为近年来代谢组学研究的加合物和同位素的存在使得数据结构存在很大的冗余热点和难点。据此,本文针对目前代谢组学数据分析性,这就需要采用合理的统计分析策略来揭示隐藏其中的常用统计学方法及其研究进展进行介绍。中的复杂数据关系。(6)分布的不规则和稀疏性:代谢组学数据分布代谢组学数据的特点不规则,而且数据具有稀疏性(即有很多值为零),因代谢组学是系统生物学领域中继基因组学和蛋白此,传统的一些线性和参数分析方法此时可能失效。质组学之后新近发展起来的一门学科,它通过检测生数据的预处理物

3、体在受到外源刺激或基因修饰后其体内代谢物质的变化来探索整个生物体的代谢机制E6]。其研究对象代谢组学数据分析的目的是希望从中挖掘出生物为生物体内所有内源性小分子代谢物(分子量<相关信息,然而,代谢组学数据的变异来源很多,不仅1000Da),研究手段为高通量检测技术和数据处理方包括生物变异,还包括环境影响和操作性误差等方面。法,最终目标是数据建模和生物标志物的筛选。生物处理手段主要包括归一化(standardization)、标准化样品如血浆、尿液、组织等,经过GC/MS、NMR、LC/(normalization),即中心

4、化(centering)和尺度化(scal—MS等高通量仪器检测后,得到大量的图谱数据,使用ing),以及数据转换(transformation)¨。归一化是针XCMS_7等软件对这些图谱数据进行转换,获得用于对样品的操作,由于生物个体问较大的代谢物浓度差统计分析的标准格式的数据。归纳起来,代谢组学数异或样品采集过程中的差异(如取不同时间的尿样),据具有以下特点:为了消除或减轻这种不均一性,一般使用代谢物的相(1)高噪声:生物体内含有大量维持自身正常功对浓度,即每个代谢物除以样品的总浓度,以此来校正能的内源性小分子,具有特

5、定研究意义的生物标志物个体差异或其他因素对代谢物绝对浓度的影响。标准只是其中很少一部分,绝大部分代谢物和研究目的化是对不同样品代谢物的操作,即统计学意义上的变无关。量标准化。标准化的目的是消除不同代谢物浓度数量(2)高维、小样本:代谢物的数目远大于样品个级的差别,但同时也可能会过分夸大低浓度组分的重数,不适合使用传统的统计学方法进行分析,多变量分要性,即低浓度代谢物的变异系数可能更大。数据转析容易出现过拟合和维数灾难问题。换是指对数据进行非线性变换,如log转换和power(3)高变异性:一是不同代谢物质的理化性质差转换等

6、。数据转换的目的是将一些偏态分布的数据转异巨大,其浓度含量动态范围宽达7~9个数量级,换成对称分布的数据,并消除异方差性的影响,以满足二是生物个体间存在各种来源的变异,如年龄、性别都一些线性分析技术的要求。不同的预处理方法会对统可能影响代谢产物的变化,三是仪器测量受各种因素计分析结果产生不同的影响(见表1),在实际应用中,影响,容易出现随机测量误差和系统误差,这使得识别我们应该根据具体的研究目的、数据类型以及要选用有重要作用的生物标志物可能极其困难。的统计分析方法综合考虑,选择适当的预处理方式。例如,RobertA.van

7、denBerg等(2006)通过实际代谢国家自然科学基金资助(81172767);高等学校博士学科专组学数据的分析发现,选用不同预处理方法在很大程项基金(20122307110004)度上影响着主成分分析(PCA)的结果,自动尺度化1.哈尔滨医科大学卫生统计学教研室(150081)(autoscaling)和全距尺度化(rangescaling)在对代谢2.山东大学卫生统计学教研室△通信作者:李康,E—mail:likang@ems.hrbmu.edu.cn组学数据进行探索性分析时表现更优,其PCA分析后ChineseJo

8、umalofHealthStatistics,Apr2014,Vo1.31,No.2的结果在生物学上能够得到更合理的解释“。除了进行传统的单变量假设检验分析,代谢组学表l常见的数据预处理方法分析中通常也计算代谢物浓度在两组问的改变倍数值(foldchange),如计算某个代谢物浓度在两组中的均值之比,判

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。