sas讲义 第三十二课多元线性回归分析

sas讲义 第三十二课多元线性回归分析

ID:10774312

大小:790.50 KB

页数:24页

时间:2018-07-08

sas讲义 第三十二课多元线性回归分析_第1页
sas讲义 第三十二课多元线性回归分析_第2页
sas讲义 第三十二课多元线性回归分析_第3页
sas讲义 第三十二课多元线性回归分析_第4页
sas讲义 第三十二课多元线性回归分析_第5页
资源描述:

《sas讲义 第三十二课多元线性回归分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、7f8a5ee65ebde1a8bcd001fc9e9417f4.doc第三十二课多元线性回归分析一、多元回归模型表示法通常,回归模型包括k个变量,即一个因变量和k个自变量(包括常数项)。由于具有N个方程来概括回归模型(32.1)模型的相应矩阵方程表示为:错误!未定义书签。(32.2)式中(32.3)其中:Y为因变量观察的N列向量,X为自变量观察的N×(k+1)矩阵,为末知参数的(k+1))列向量,e为误差观察的N列向量。在矩阵X表达式中,每一个元素Xij都有两个下标,第一个下标表示相应的列(变量),第二个下标表示相应的行(观察)。矩阵X的每一列表示相应的给定变量的N次观察的向量

2、,与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下:l模型形式由(32.1)给定;l矩阵X的元素都是确定的,X的秩为(k+1),且k小于观察数N;le为正态分布,E(e)=0和,式中I为N×N单位矩阵。根据X的秩为(k+1)的假定,可以保证不会出现共线性。如果出现完全共线性,矩阵X的一列将为其余列的线性组合,而X的秩将小于(k+1)),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外,我们还假定每一个误差项的平均值为0,方差为常数,以及协方差为0。假若我们按Y的分布来表示假设(3),则可写成下式:(32.4)二、最小二乘

3、法估计我们的目的是求出一个参数向量使得残差平方和最小,即(32.5)式中,(32.6)7f8a5ee65ebde1a8bcd001fc9e9417f4.doc(32.7)其中表示回归残差的N列向量,而表示Y拟合值的N列向量,表示为估计参数的(k+1)列向量,将式(32.6)和式(32.7)代入式(32.5),则得:(32.8)为了确定最小二乘法估计量,我们求ESS对进行微分,并使之等于0,即(32.9)所以(32.10)被称为“交叉乘积矩阵”的矩阵能够保证逆变换,这是因为我们假设X的秩为(k+1),该假设直接导致了的非奇异性。最小化的二阶条件是,是一个正定矩阵。最小二乘法残差有一

4、个有益的特性,即(32.11)这个结果说明自变量和残差的交叉乘积的总和为O,这个公式在一些推导中是非常有用的。现在可以考虑最小二乘估计量的性质。首先可以证明它们是无偏估计量。因为(32.12)设式中,且是常数,这样(32.13)根据式(32.13),可以看到,只要遗漏变量都是随机分布的,与X无关,并且具有0均值,则最小二乘法估计量将是无偏的。(32.14)我们看到,最小二乘法估计量为线性和无偏估计量。事实上,为的最佳线性无偏估计量,也就是说它在全部无偏估计量中方差最小,这就是著名的高斯-马尔可夫定理。为了证明高斯-马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比的方差大。

5、请注意=AY。为了不失去一般性,我们可写成:(32.15)7f8a5ee65ebde1a8bcd001fc9e9417f4.doc假如b是无偏的,则(32.16)式(32.16)成立的一个必要和充分的条件是,这样就可以研究矩阵。由于,所以有(32.17)由于因为,所以,即(32.18)我们可以看出,为一半正定矩阵。该矩阵的二次型为0,只有当(所有元素为0)时才出现。当时,另外的估计量就是普通最小二乘法估计量,这样,我们的定理就得到证明。一、的估计和t检验为了计算估计参数的方差-协方差矩阵,我们需要给出的估计量,该估计量自然选为(32.19)证明为的一个无偏估计量,虽很单调冗长,但

6、不困难。因此,是Var()的估计。当为已知时,可用正态分布假设检验。当用近似时,我们不得不用t假设检验。为此,我们利用以下的统计结果:l若已知,则服从分布,具有N-k-1个自由度;l错误!未定义书签。服从分布,具有N-k-1个自由度;l错误!未定义书签。,当i=0,1,2,…,k时,服从正态分布,平均值为0,方差为7f8a5ee65ebde1a8bcd001fc9e9417f4.doc,其中vi为的第i个对角线元素;l错误!未定义书签。和相互独立。由此得出:(32.20)该式为t分布,具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如

7、t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的置信区间可由下式得出:(32.21)其中为与显著水平有关的t分布临界值。一、R2和F检验我们可将Y的总变差分成两部分,一部分代表已说明变差,另一部分代表末说明变差。为了简化公式推导过程,首先我们假定Y变量具有0平均值,即=0,则有(32.22)由于和,所以(32.23)式中为总平方和,为回归(已说明)平方和,为残差(未说明)平方和,归纳成回归方差分析表,见表32.1所示。表32.1回归方差分析表变异来源source

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。