解决多元线性回归中多重共线性问题的方法分析

解决多元线性回归中多重共线性问题的方法分析

ID:5299792

大小:257.67 KB

页数:6页

时间:2017-12-07

解决多元线性回归中多重共线性问题的方法分析_第1页
解决多元线性回归中多重共线性问题的方法分析_第2页
解决多元线性回归中多重共线性问题的方法分析_第3页
解决多元线性回归中多重共线性问题的方法分析_第4页
解决多元线性回归中多重共线性问题的方法分析_第5页
资源描述:

《解决多元线性回归中多重共线性问题的方法分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、http://www.paper.edu.cn解决多元线性回归中多重共线性问题的方法分析谢小韦,印凡成河海大学理学院,南京(210098)E-mail:xiexiaowei@hhu.edu.cn摘要:为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法:岭回归、主成分回归和偏最小二乘回归。本文以考察职工平均货币工资为例,利用三种方法的SAS程序进行了回归分析,根据分析结果总结出三种方法的优缺点,结果表明如果能够使用定性分析和定量分析结合的方法确定一个合适的k值,则岭回归可以很好地消除共线性影响;主成分回归和偏最小二乘回归采用成份提取的方法进行回

2、归建模,由于偏最小二乘回归考虑到与因变量的关系,因而比主成分回归更具优越性。关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归1.引言现代化的工农业生产、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归是常用的方法之一。多元线性回归是研究多个自变量与一个因变量间是否存在线性关系,并用多元线性回归方程来表达这种关系,或者定量地刻画一个因变量与多个自变量间的线性依存关系。在对实际问题的回归分析中,分析人员为避免遗漏重要的系统特征往往倾向于较周到地选取有关指标,但这些指标之间常有高度相关的现象,这便是多变量系统中的多重共线性现

3、象。在多元线性回归分析中,这种变量的多重相关性常会严重影响参数估计,扩大模型误差,破坏模型的稳健性,从而导致整体的拟合度很大,但个体参数估计值的t统计量却很小,并且无法通过检验。由于它的危害十分严重,存在却又十分的普遍,因此就要设法消除多重线性的不良影响。常用的解决多元线性回归中多重共线性问题的模型主要有主成分回归、岭回归以及偏最小二乘回归。三种方法采用不同的方法进行回归建模,决定了它们会产生不同的效果。本文以统计职工平均货币工资为例,考察一组存在共线性的数据,运用SAS程序对三种回归进行建模分析,并对结果进行比较,总结出它们的优势与局限,从而更好地指导我们

4、解决实际问题。2.共线性诊断拟合多元线性回归时,自变量之间因存在线性关系或近似线性关系,隐蔽变量的显著性,增加参数估计的方差,导致产生一个不稳定的模型,因此共线性诊断的方法是基于自变量的T观测数据构成的矩阵xx进行分析,使用各种反映自变量间相关性的指标。共线性诊断常用统计量有方差膨胀因子VIF(或容限TOL)、条件指数和方差比例等。一般认为:若VIF>10,说明模型中有很强的共线性关系;若条件指数值在10与30间为弱相关,在30与100间为中等相关,大于100为强相关;在大的条件指数中由方差比例[1]超过0.5的自变量构成的变量子集就认为是相关变量集。3.三

5、种解决方法岭回归基本思想:当出现多重共线性时,有XXT≈0,从而使参数的βˆ=()XXXYTT−1很不TT稳定,出现不符合含义的估计值,给XX加上一个正常数矩阵KIK(0>),则XXKI+等-1-http://www.paper.edu.cn于0的可能性就比Tˆ()TT−1βˆ比用普通最XX的可能性要小得多,再用β=+XXKIXY来估计,小二乘估计的βˆ要稳定得多。主成分回归基本思想:观察n个样本点,得到因变量y和p个自变量x,,,xxL关12p系,设自变量x0=(x12,,,xxLp)间的相关数矩阵记为R。主成分回归方法完全撇开因变量y,单独考虑对自变量集

6、合做主成分提取。其过程是:1)求R的前m个非零特征值λ≥≥≥>λλL0,以及相应的特征向量12muu,,,Lu;12m2)求m个主成分:F=Xuhm=1,2,L,hh0偏最小二乘回归的基本思想:首先在自变量集中提取第一潜因子t(t是xxx,,L111,2m的线性组合,且尽可能多地提取原自变量集中的变异信息,比如第一主成分);同时在因变量集中也提取第一潜因子u,并要求t与u相关程度达最大。然后建立因变量Y与t的回归,1111如果回归方程已达到满意的精度,则算法终止。否则继续第二轮潜在因子的提取,直到能达到满的精度为止。若最终对自变量集提取l个潜因子tt,,,L

7、t,偏最小二乘回归将通过建立12l[2]Y与tt,,,Lt的回归式,然后表示为Y与原自变量的回归方程式。12l4.实例分析全国单位大体分成三大类:国有单位,城镇集体单位和其他单位,考虑到职工的平均工资主要和这三类单位的工资有关,为了研究和分析我国职工的平均工资,需建立一个以职工平均工资为因变量,三类单位的工资为自变量的回归方程。考察职工平均货币工资指数Y与国有单位货币工资指数x1,城镇集体单位货币工资指数x2,其他单位货币工资指数x3等三个自变量有关。现收集1991年至2005年共15年的数据,如表1所示。表1职工货币工资指数Table1Theindexof

8、staff’smonetarywage货币工资指数(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。