欢迎来到天天文库
浏览记录
ID:10794830
大小:61.50 KB
页数:6页
时间:2018-07-08
《论加权回归与建模论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、论加权回归与建模论文摘要:以加权回归估计方法为核心,对林业上常用模型的异方差性进行了研究,提出了能彻底消除异方差的最佳权函数。并对模型的评价指标进行了探讨,提出了评价通用性回归模型的3大指标,并分析了加权回归估计与这些评价指标之间的关系。最后对样本资料的收集进行了讨论,提出了收集建模样本应遵循的基本原则。关键词:加权回归建模异方差模型评价林业数表模型是森林经营决策必不可少的计量、预测、评价依据,保证模型质量至关重要,而样本组织、模型拟合方法和模型评价是保证质量的3个重要环节。实践证明.freel、H=15m的杉木,经实测其材积为0.24m3。如果用于立木材积的目测训练,正
2、确的做法自然是将0.24m3作为该树的材积真值来检测每个人的目测水平;如果是用于立木材积表的编制,则0.24m3只是满足D=20cm、H=15m这一条件的某株杉木的材积实测值,在这种情况下不存在真值的概念,而只有实测值与预估值(或期望值)之分。误差计算在林业数表领域的应用基本上都是后一种情形,因此一般应采用前面给出的(7)~(9)式。预估精度(10)式或预估误差(11)式是笔者提出的评价通用性模型的新指标,从后面的讨论将看到,它是反映模型预估效果的最重要的评价指标。它的成立需满足条件总体为正态分布这一前提条件。对于林业生产应用中的绝大多数情况,这一条件都是基本满足或近似满
3、足的。3.2模型评价与加权回归为了说明加权回归方法对建立通用性模型的重要性,现以一组实测数据为例,来对普通最小二乘法和加权最小二乘法得出的模型进行评价。所用数据为杉木地上部分干物质生物量,采集自江西省德兴市的人工杉木林中。共计50株样木,来自6个样地,样地按幼、中、成3个龄组和中、好两个立地等级各分布1块。如果从建立立木生物量模型这一目的考虑,所用数据严格讲并不符合建模要求(后面将讨论到),但用作不同方法结果的对比是可以的。表1给出了常规生物量模型APRSERMAP全部Total1.26958.0025.5994.364.200.0014.1892.30第1段Sectio
4、nNo.143.35543.4554.3538.36-2.86-4.8610.4783.60第2段SectionNo.233.05400.1241.8461.384.1575.8222.9277.67第3段SectionNo.35.7465.248.1491.45-6.79-72.349.8891.54第4段SectionNo.4-4.67-58.4116.0386.10-6.87-91.6716.3585.71第5段SectionNo.50.497.607.6191.7210.7693.0611.2885.56需要说明的一点是,由于模型本身的参数是未知的(假定模型结构为
5、已知——模型结构设计也是建模的重要环节之一,本文不作讨论),因此,只有事先得到其普通回归估计值,才能进行加权回归估计。严格来讲,以模型本身为权函数进行的加权回归估计,应该是权函数所赋参数值与回归估计得出的参数完全相等;如果不相等,应再以新的回归模型为权函数重新进行拟合。一般地,要达到完全稳定需经数次的反复拟合,而且参数越多,所要拟合的次数也越多。如上述表1中的例子,就经过了7次加权回归才使参数完全稳定不变(指5位有效数)。但是,从消除异方差这一目的考虑,经过1~2次加权回归就基本上具有齐性方差了,模型的总系统误差已接近于0。加权回归估计与普通回归估计的结果之所以产生如此大
6、的差别,根本原因在于求解模型参数的准则不同。普通回归是使Q=Σ(y-)2最小,即保证总相对误差为0(由于非线性回归估计中的非线性模型是用泰勒级数展开式近似表示的,故存在一定偏差,使估计出来的模型其总相对误差并不等于0,可参见表2),必然优先考虑y绝对值较大的点;而加权回归是使Q′=Σ(y/-1)2最小,即保证总系统误差为0,考虑的是相对值,每个样点都同等重要,故必然会照顾到所有的样点。总之,不论理论分析还是实际对比结果都表明,通用性回归模型的建立必须采用加权回归估计方法。关于回归模型的评价,Q、S、R、R及参数稳定性等指标主要用于比较确定不同的模型形式,最终回归模型的评
7、价则必须重点考虑(7)~(10)式中的指标值,而且其分段检验结果尤为重要。4收集建模样本的基本原则要建立一个好的通用性模型,对建模样本是有一定要求的。如林业上一些通用性数表的编制,对样本资料的要求在部颁技术规定(林业部,1990)中都作了具体规定。但是也不难发现,其中对建模样本的要求仍然不是很明确,还有必要再作进一步探讨。4.1样本单元数作为建模样本,首先涉及样本单元数的问题。文(中华人民共和国林业部,1990)中提到了一条原则:“样本单元数应根据各项因子的变动范围和精度要求按数理统计原理确定”,但是对精度要求都是用“系统误差
此文档下载收益归作者所有