模型验证相关材料

模型验证相关材料

ID:19585429

大小:1.70 MB

页数:18页

时间:2018-10-03

模型验证相关材料_第1页
模型验证相关材料_第2页
模型验证相关材料_第3页
模型验证相关材料_第4页
模型验证相关材料_第5页
资源描述:

《模型验证相关材料》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、4.6.1模型拟合能力评价模型拟合能力评价主要用于表明模型解释训练集变化的能力。本文主要采用以下几个统计评价指标对模型拟合能力进行评价:1)相关系数(R)相关系数表示预测值与目标值之间线性关系的密切程度,其取值范围在0到1之间。其值越接近于1,表示线性关系越强;越接近于0表示线性关系越差。2)决定系数(R2)决定系数又称为复相关系数,它是判定线性回归拟合优度的重要指标,其定义为(4-1)从上面的公式可以看出,决定系数等于回归平方和在总平方和中所占的比例,因此它体现了回归模型所能解释的应变量变异的百分比。例如,R2=0.825说明应变量的变异82.5%是由自变量引起的;R2=1则表明所有的观

2、测点都落在回归方程上;R2=0则说明自变量与应变量间不存在线性关系。3)均方根误差(RMSE)、平均绝对误差(AAE)、平均相对误差(APE)和标准误差(SE)均方根误差表示随机误差的分散程度,其定义为(4-2)平均绝对误差表示拟合值与目标值之差,其定义为(4-3)平均相对误差的定义为(4-4)标准误差指拟合值的标准误差,其定义为(4-5)上述各式中,n为实验样本数,和分别为样本预测值及目标值。这些参数都是衡量模型精确度的一些常用参数,它们依赖于应变量数据的范围和分布,并受“离域点”的影响[133]。4)F检验F检验是一种检验自变量和应变量之间的线性关系是否显著的方法,适用于基于MLR方法

3、建立的模型[133]。它将回归离差平方和与剩余离差平方和进行比较,分析二者之间的差别是否显著。如果是显著的,说明两个变量之间存在线性关系,如果不显著,则说明两个变量之间不存在线性关系。上述评价指标能够对模型的拟合能力进行较好的评价。然而,对于QSPR研究中经常出现的两类问题——“欠拟合”和“过拟合”问题,它们却无法进行有效的鉴别。所谓“欠拟合”,是指模型没有充分揭示出样本集所包含的变量信息,从而导致模型的预测能力降低,这类问题常出现于采用线性建模方法所得到的模型;所谓“过拟合”则是由于拟合了误差信息,导致模型拟合度高于性质数据和描述符结合的变化性,这类问题常出现于采用非线性建模方法所得到的

4、模型[134]。由于这两类问题与模型的稳定性紧密相连[133,135],因此对于此类问题的鉴别,常需要通过模型的稳定性分析加以解决。4.6.2模型稳定性分析所谓模型稳定性分析实际上是对模型的“不稳定性”进行分析。模型“不稳定性”的含义是模型受训练集中某些个别化合物或化合物子集的影响比较大,如果化合物的预测值超出模型的置信区间,就会导致模型不稳定[133]。目前文献上直接对模型的不稳定性进行定量分析的研究较少。对模型不稳定性的研究更常用的方法是通过内部验证的方式进行。因为任何内部验证技术都能在一定程度上评价模型的不稳定性。因此,本文采用以下几种内部验证技术对模型稳定性进行研究:1)“留多法”

5、交互验证[136]“留多法”(Leave-many-out,LMO)交互验证是一种较为常用的内部验证技术。该方法将初始训练集中的n个样本平均划分为大小为m的G(=n/m)个子集,然后每次去除m个数据点,采用剩下的n-m个样本作为训练集重新建模并验证由m个样本构成的验证集。经G次计算,得到交互验证系数Q2来表征模型的稳定性和内部预测能力[136]。一般认为,如果Q2大于0.5,则模型比较稳定;如果大于0.9,则模型的稳定性非常优秀[137]。Q2的计算公式如下:(4-6)其中,yi,和分别代表训练样本的自燃点实验值、预测值及实验值平均值。2)“留一法”交互验证[136]“留一法”(Leave

6、-one-out,LOO)交互验证是一种特殊的“留多法”交互验证方法,其具体过程与“留多法”相似,区别仅在于m=1。由于“留一法”利用了全部的样本数据,因而也是一种最经济的方法。尽管有研究者指出,“留一法”交互验证所得结果常会过高的估计模型的预测能力[138],但它在QSPR建模过程中仍是必不可少的,尤其是对于小样本的研究体系。3)Y-随机性检验[136]Y-随机性检验也是一种广泛用于表征模型稳定性的统计方法。它将原样本集因变量Y随机打乱,与原有自变量组合成新的样本集,建立模型。重复上述过程50~100次,将结果与原样本集结果对比,若原样本集预测模型性能参数明显优于新样本集的性能参数,则认

7、为原样本数据中存在真正的QSPR关系,所建模型稳定性较好,不存在“偶然相关”现象;反之,则表明原所建模型不能被接受。4)残差图分析法残差图分析法指在直角坐标系中以预测值为横轴,以残差为纵轴绘制残差的散点图。如果散点呈现明显的规律性,则认为所建模型存在自相关性或者存在非线性、非常数方差的问题;如果散点呈现随机分布,则认为所建模型是合适的,在建立过程中未产生系统误差。内部验证在QSPR建模过程中是必不可少的一步,但是内部验证

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。