生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法

生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法

ID:5219985

大小:113.00 KB

页数:9页

时间:2017-12-06

生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法_第1页
生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法_第2页
生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法_第3页
生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法_第4页
生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法_第5页
资源描述:

《生物组学数据论文:生物组学数据 偏最小二乘回归 变量选择 lasso算法 弹性网络算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、【关键词】生物组学数据偏最小二乘回归变量选择lasso算法弹性网络算法【英文关键词】BiologicalomicsdataPartialleastsquaresregressionVariableselectionLassoAlgorithmElaticnetalgorithm生物组学数据论文:基于稀疏偏最小二乘算法的生物组学数据融合算法研究【中文摘要】人类基因组计划完成之后,生物学领域中发展起来的各种组学技术把生命科学带进了系统生物学时代,此时,基因组学、转录组学、蛋白质组学、代谢组学等数据呈指数级增长。在这种高通量数据背景下,为了理解

2、目前未知的生物学机制并且获得生物各功能层之间的相互作用,我们需要开发融合各种生物组学数据并且同时给出生物学解释的方法,从而可以描述和预测相关生命过程的生物学功能、生物体表型和行为。各种类型的组学数据由许多变量表征并且一般没有足够多的样本,因此数据的属性变量之间容易存在线性相关现象。我们通常采用基于典型相关分析或偏最小二乘回归(PLS)的方法融合组学数据,因为它们的计算性能比较好。目前流行的稀疏偏最小二乘回归(sPLS)方法在PLS中内置了变量选择过程,并且在融合两组组学数据集和对结果的生物学解释方面有良好的性能,本文对sPLS进行研究并尝

3、试着对其改进。sPLS通过偏最小二乘回归和奇异值分解克服统计数学方面的束缚,并且通过lasso变量选择方法实现方法的稀疏性,在降低试验成本的情况下促进对结果的生物学解释。PLS方法采用主成分分析思想对数据结构进行降维处理并克服了多重相关性的危害,运用典型相关分析思路分析两组变量之间的相关性,它重新筛选数据系统的重要信息并选取对数据系统具有最佳解释能力的几个主成分进行回归建模。lasso(最小绝对收缩和变量选择操作)惩罚方法在回归模型中将影响较弱的变量的系数设置为零,只保留有主要影响的变量的系数,从而在估计回归系数的同时完成变量选择,实现组

4、学数据融合的稀疏性解决方案。通过对lasso方法的研究发现,lasso至多只能选择和样本数量一样数量的变量并且如果需要选出一组相关程度比较高的变量,lasso倾向于只选择其中一个变量并且不在乎选择了哪个变量。因此,对样本数远少于属性变量数量的组学数据进行融合分析时,lasso不是理想的方法。本文中,我们尝试着在sPLS方法中用弹性网络惩罚改进变量选择过程。弹性网络惩罚是一种正规化变量选择方法并且不仅可以成组地选出密切相关的目标预测因子,还能够在全体变量中选择目标变量。弹性网络惩罚通过处理自变量数据集的增广矩阵而将弹性网络问题转化为等价的l

5、assoI司题,得到弹性网络惩罚的一个软门限函数,从而在数据集的权值向量上施加软门限函数可以进行变量选择操作。本文在鼠类肝毒性研究的基因表达数据和肝功能临床数据上实施PLS方法、sPLS方法和改进的sPLS方法,这三个方法都在总体因变量和每个因变量上对自变量数据集做回归分析,本文通过交叉验证方法比较它们的性能。实验结果表明,在PLS方法中引入变量选择环节可以得到更稳定高效的预测效率,并且基于弹性网络惩罚的sPLS方法比原来的方法在选出目标变量方面更有效率。本文只是对生物组学数据融合方法做了基本的实验研究,所研究的sPLS为融合两块组学数据

6、集提供一个非常有用的工具,并且可以对结果提供良好的生物学解释。对于以后的研究方向,可以将sPLS和其他门限规则一起应用,可以考虑sPLS的对称分析版本,还可以尝试使用其他惩罚函数或者改进现有的惩罚函数,比如采用自适应弹性网络惩罚。然而,由于生物过程的复杂性、特殊性和数据的高通量性,sPLS方法尚需要在统计学和生物解释方面做进一步的理论和实践工作。【英文摘要】SincethecompletionofHGP(HumanGenomeProject),multipledevelopedOmicstechniqueshavebroughtlifes

7、cienceintothesystembiologyera.Inthesystembiologyera,technologicaladvancesenablethemonitoringofanunlimitedquantityofomicsdataoutputsfromvariousomicsanalysisplatforms,suchastranscriptomic,proteomicormetabolomicdata.Inordertoenableanimprovedunderstandingofsomeunderlyingbiolo

8、gicalmechanismsandinteractionsbetweenfunctionallevels,weneedtodevelopthesortofintegrativebiologi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。