代谢组学的数据分析技术

ID：19001802

大小：18.00 KB

页数：3页

时间：2018-09-27

资源描述：

《代谢组学的数据分析技术》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、代谢组学的数据分析技术摘要：代谢组学是效仿基因组学和蛋白质组学的研究思想，对生物体内所有代谢物进行定量分析，并寻找代谢物与生理病理变化的相对关系的研究方式，是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。文章主要综述了将代谢组学中的图谱、数据信息转换为相应的参数所采用的分析方法。关键词：代谢组学；数据分析方法代谢组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质，评价细胞和体液内源性和外源性代谢物浓度及功能关系的新

2、兴学科，是系统生物学的重要组成部分，其相应的研究能反映基因组、转录组和蛋白组受内外环境影响后相互协调作用的最终结果，更接近反映细胞或生物的表型，因此被越来越广泛地应用。而代谢组学的数据分析包括预处理和统计分析方法，多元统计分析方法主要分为两大类：非监督和监督方法，非监督方法包括主成分分析PCA；聚类分析CA等；监督方法包括显著性分析、偏最小二乘法等，本文就是主要综述代谢组学图谱信息转化为参数信息所采用的数据分析方法。1预处理数据的预处理过程包括以下：谱图的处理；生成原始的数据矩阵；数据的归一化以及标准化处理过程。针对实验性质、条件以及样品

3、等因素采用不同的预处理方法。在实际应用过程中，预处理可以通过实验系统自带的软件如XCMS软件。进行，因此一般较容易获得所需的数据形式。2数据分析方法2.1主成分分析PCA是多元统计中最常用的一种方法，它是在最大程度上提取原始信息的同时对数据进行降维处理的过程，其目的是将分散的信息集中到几个综合指标即主成分上，有助于简化分析和多维数据的可视化，进而通过主成分来描述机体代谢变化的情况。PCA的具体过程是通过一种空间转换，形成新的样本集，按照贡献率的大小进行排序，贡献率最大的称为第一主成分，依次类推。经验指出，当累计贡献率大于85％时所提取的主

4、成分就能代表原始数据的绝大多数信息，可停止提取主成分。在代谢组数据处理中，PCA是最早且广泛使用的多变量模式识别方法之一。，具有不损失样品基本信息、对原始数据进行降维处理的同时避免原始数据的共线性问题等优点，但在实际应用过程中，PCA存在着自身的缺点[1]：离群样本点的存在严重影响其生物标志物的寻找；非保守性的代谢组分扰乱正确的分类以及尺度的差异影响小浓度组分的表现等，其他的问题之前也有讨论[2]。针对PCA的缺陷采用了不同的改进措施，与此同时，为了简化计算，侯咏佳等[3]。提出了一种主成分分析算法的FPGA实现方案，通过Givens算法

5、和CORDIC算法的矢量旋转，用简单的移位和加法操作来实现协方差矩阵的特征分析，只需计算上三角元素，因此计算复杂度小、迭代收敛速度快。2.2locatedintheTomb,DongShenJiabang,deferthenextdayfocusedontheassassination.Linping,Zhejiang,1ofwhichliquorwinemasters(WuzhensaidinformationisCarpenter),whogotAfewbayonets,duetomissedfatal,whennightcame聚类

6、分析CA是用多元统计技术进行分类的一种方法。其主要原理是：利用同类样本应彼此相似，相类似的样本在多维空间里的彼此距离应较小，而不同类的样本在多维空间里的距离较大。具体的做法是先将每个样本自成一类，选择距离最小的一对并成一个新类，计算新类与其他类之间的距离，再将距离最小的两类并为一类，直至所有样本都成为一类为止。目前多维空间里的两样本距离的算法主要有：欧氏距离、闵氏距离、马氏距离等，其中以欧氏距离最常用。2.3判别分析DA又称分辨分析或分辨法，是在一系列多因子(xi)观测值的基础上，对事物的属性差别进行分类或分辨的统计学法，主要用于定性预测

7、。其基本方法是根据样品的P个测定指标，对一批位置样品进行分类；前提是已知一些样品的分类，然后根据P个测定指标来确定未知样品究竟归属哪一类。在判别分析中，判别函数有最佳型判别函数和固定型判别函数两类。目前，判别分析的准则和方法亦有许多，如马氏距离判别法、Fisher判别法、Bayes判别法、逐步判别法等等。2.4偏最小二乘法PLS是SWold和CAlbano等[19]1983年首次提出的回归方法。它在克服自变量多重相关性的情况下，能对较少的样本量进行建模以及有效的筛选。叶莺等[4]实验证明，与一般最Jb---乘法及PCA相比，PLS计算所得

8、的拟合残差最小，稳定度最高，能改善各变量的作用方向并使其更符合专业解释，成为模型变量筛选的有效工具。其基本原理如下：①将数据进行中心化和标准化，形成自变量和因变量的矩阵；②求协方差矩阵，并根据

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

代谢组学的数据分析技术

代谢组学的数据分析技术

相关文章

相关标签