资源描述:
《半参数预测模型在定量的分子结构与其活性之间关系中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、半参数预测模型在定量的分子结构与其活性之间关系中的应用殷弘(香港浸会大学数学系)摘要我们将要介绍的这个半参数预测模型(也叫kriging模型)是由一个参数模型和一个非参数随机过程联合构成的。它比单个的参数化模型更具有灵活性,同时又克服了非参数化模型处理高维数据存在的局限性。通过对一组实际数据的应用,我们发现它比单个的参数化模型具有更强的预测能力,值得在定量的分子结构与其活性之间的关系的研究中加以推广。关键字半参数,回归,预测1:引言我们研究定量的分子结构与其活性之间的关系(QSAR),其目的是想在分子的活性与分子结构之间建立一个比较理想的
2、统计回归模型:煦赽魂俶=f(煦赽賦凳)=f(煦赽鏡扴硉)(1.1)这样我们就可以通过此模型来预测未知某类化合物的物理化学的,生物学的以及毒物学的某种属性,模型中称为回归变量。而分子描述值是对分子结构的一种定量的描述,我们可以将其看成模型中的自变量。自从提出第一个分子描述值以来,现在有成千上百个分子描述值,这给模型建立带来了很多困难。比如说,如何选择变量?选好变量后建立什幺样的模型等等?QSAR研究中经常用到的参数化模型有普通的线性回归,主成份回归,偏最小二乘回归和邻回归。这些方法只是充分挖掘了自变量与回归变量之间的线性关系,对剩下的信息没
3、有能力给出解释了。而本文将要介绍的半参数模型是由一个参数化模型和一个非参数化的随机过程组成的。其中非参数化的随机过程提高了整个模型的质量,现在我们将此方法介绍给大家。1452:Kriging模型Kriging一词的意思是最优的空间预测,它是根据一个南非采矿工程师Krige的名字命名的,是他将随机过程模型首次运用在空间预测上的。详细内容读者可以参阅Cressie(1993),Journel和Huijbregts(1978),Rivoirard(1994)。假设我们采集到m个训练样本S=[s,s,L,s]'和Y=[y,y,Ly]',12m12
4、mns∈ℜ,y∈ℜ。Kriging方法用如下的模型来建立自变量与回归变量之间的关系ii(不含误差,含有误差的模型在后面介绍):y(s)=u(s)+z(s)(2.1)其中u(s)一个参数模型,它表现了回归变量y(s)的大部分信息,被称作平均结构。z(s)是一个均值为零的随机过程。常用的kriging模型假设u(s)是一个参数线性模型:pu(s)=f(s)β=∑fj(s)βj。(2.2)j=1n{pf(s)=[f(s),f(s),Lf(s)],f:ℜ→ℜ,f(s)}就是任一一组基函数。12pjj1β=[β,β,L,β]'是需要估计的参数项量。
5、除了假定随机过程z(s)的均值为零以12p外,还要定义它的协方差:n2(j)E(z(si)z(sj))=σRθ(si,sj)=∏Rθ(si−sj),(2.3)j=12σ被称为过程方差,R是调节样本点的相关函数。我们列举最常用的相关函数θ(d=s−s,θ>0):jijj(j)NameR(d)θjEXPexp(−θ
6、d
7、)jjGUASS2exp(−θjd)jLINmax{0,1−θ
8、d
9、}jjSPLINE231−3ξ=+2ξ;ξmin{1,θ
10、d
11、}jjjjj将设计矩阵S进行标准化后,−2≤d≤2。我们可以通过以下图形对相关函数的j选择进行说
12、明。146Figure1.1Correlationfunctionsfor0≤d≤2,jDashed,fullanddash-dottedline:θ=0.2,1,5j由以上图形可以看出,相关函数可以分为两类:一类是Spline和Gauss,它们在原点处表现出曲线行为;另一类是Lin和Exp,它们在原点处表现的是线性行为。我们可以将这些特点和你要考虑的实际数据的背景结合起来。如果实际数据满足的函数是连续可微的,Spline和Gauss这样的相关函数就优选,反之,如果函数在零点附近表现出线性行为,Lin和Exp的效果就比Spline和Gau
13、ss要好(Isaaks和Srivastava,1989).我们可以将最简单的kriging模型和单个的参数化线性模型作比较,除了线性参数β2外,kriging模型还引进了参数(σ,θ),这样无疑使得它更具有灵活性(Sacks,jetal.,1989)。3.Kriging模型参数的估计当取定好一组基f(s)=[f(s),f(s),L,f(s)],我们就得到一个m×p的扩12p展设计矩阵F,F=f(s),i=1,Lm,j=1,Lp,和一个m×m的相关矩阵ijjiR=R(s,s),i,j=1,Lm。通常我们用已知训练样本的响应值的线性组合来估计
14、任θijm一个给定样本x的响应值yˆ(x)=c'Y,c∈ℜ。很容易求出在线性无偏的条件下使得2ϕ(x)=E[(yˆ(x)−y(x))]达到最小的c的估计为:−1~~−1-1−1cˆ=R(r−F