资源描述:
《第四讲多重共线性》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第五讲多重共线性本讲分为两个部分:第一部分是对相关性问题的研究,作为多重共线性问题的基础,第二部分则是对多重共线性问题展开讨论。第一部分:相关理论1.相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。1.1相关的定义与分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:①按强度分完全相关:变量间存在函数关系。例,圆的周长,L=2πr。高度相关(强相关):变量间近似存在函数关系。例,我
2、国家庭收入与支出的关系。弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。完全相关高度相关、线性相关、正相关弱相关②按变量个数分按形式分:线性相关,非线性相关简单相关:指两个变量间相关按符号分:正相关,负相关,零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。非线性相关负相关零相关因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。1.2简单线性相关的度量用简单线性相关系数,简称相关系数
3、(correlationcoefficient13)度量两个变量间的线性相关强度,用r表示。r的随机变量表达式是r=。r的统计表达式是r==其中T,总体容量;xt,yt,变量的观测值;mx,my,变量观测值的均值。下面解释r为什么能对变量间的线性相关强度进行定量度量。因为r表达式的分子是协方差,Cov(xt,yt);分母是xi和yt的标准差之积。而xt和yt的标准差不会为零,所以Cov(xt,yt)是否为零,就决定了r是否为零,即标志着变量xt,yt间是否存在线性相关关系。但Cov(xt,yt)有两个缺点:①它是一个有量纲
4、的量,取值容易受测量单位的影响;②取值范围宽,相关性越强,Cov(xt,yt)取值越大。为克服上述缺点,用xt,yt的标准差除Cov(xt,yt),于是就得到相关系数r的统计表达式。它是一个无量纲量。相关系数r是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r表示,即r是总体相关系数r的估计值。r===其中T,样本容量;xt,yt,变量的观测值;,,变量观测值的均值。11.3相关系数的取值范围(1)当两个变量严格服从线性关系时,∣r∣=1。证:设直线斜率为k,即y=a+kx。则有r===1(2
5、)当两个变量不存在线性关系时,
6、r
7、=0。(3)上述是两种极端情形,所以相关系数的取值范围是[-1,1]。当Cov(xt,yt)>0时,则r>0(正相关);当Cov(xt,yt)<0时,则r<0(负相关);若Cov(xt,yt)=0,则r=0(零相关)。为什么图1为正相关?为什么图2为负相关?用S(xt–)(yt–)解释。13图1正相关图2负相关例1:散点图与相关系数r=0.64r=0.991.4线性相关系数的局限性(1)只适用于考察变量间的线性相关关系。也就是说当r=0时,只说明二变量间不存在线性相关关系,但不能保证不存
8、在其它非线性相关关系。所以变量不相关与变量相互独立在概念上是不同的。(2)相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。所以在计算r的同时,还要强调对实际问题的分析与理解。(3)一般说二变量相关时,可能属于如下一种关系。①单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。②双向因果关系。如工业生产与农业生产;商品供给量与商品价格。 ③另有隐含因素影响二变量变化。如市场上计算机销量与电视机销量呈正相关。显然
9、人均收入的增加是一个隐含因素。 ④虚假相关。如年国民生产总值与刑事案件数呈正相关。显然二变量间不存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。(file:correlation1)1.5简单相关系数的检验13(1)直接检验(查相关系数临界值表)H0:r=0;H1:r¹0用xt和yt的样本计算相关系数r,以自由度f=T-2查临界值表。检验规则是,若
10、r
11、>ra(T-2)(临界值),则xt和yt相关;若
12、r
13、14、1:r¹0t==~t(T-2)其中2表示涉及两个变量。若
15、t
16、>ta(T-2),则xt和yt相关;若
17、t
18、