资源描述:
《相关系数与相关指数的产生和关系》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、2018-03-2808:02:08速读•下旬2018年3期由偏差平方和分解公式我们知道,残差平方和越小,回归平方和就越大,回归变量[y](亦即解释变量X)对预报变量y的贡献就越大,用回归变量[y]作为预报变量y的估计值就越准确,从而x与y的线性相关性就越强。在偏差平方和分解公式的两边同除以[口n(y1-y)]2,我们得到:[i=1n(yi-yi)2i=1n(yi-y)2]+[i=1n(yi-y)2i=1n(yi-y)2]=1<>等式左边第一项是随机课差£对预报变量的贡献率,第二项是冋归变量[y](亦即解释变量x)対预报变量y的贡献率。记:[R2=i=1n(yi-y
2、)2i=1n(yi-y)2]=1-[i=1n(yi-y)2i=1n(yi-y)2]。[R2]叫做和关指数。学习《数学(选修)》,感觉相关系数与相关指数是两大难点,只要突破这两点,线性回归的学习就容易多了。本文沿着课本上用最小二乘法求线性冋归方程的系数的推导做下去,揭示相关系数与相关指数的来龙去脉和它们的关系。已知n组数据[xi,yi],[i=1,2,3,…,n],设线性回归模型为:[y=y+c]0其中[y=a+bx],将这n组数据代入回归模型得:[yi=yi+ci],[i=1,2,3,…,n],其中[yi=a+bxi]。残差平方和[Qa,b]=[i=1ne2i]=[
3、i=1n(yi-yi)2]=[i=1n(yi-a-bxi)2]。记[x=1ni=1nxi],[y=1ni=1nyi],则[Qa,b]=[i=1nyi-y+y-a+bx-bxi-x2]=[i=1nyi-y2]+[ny-a+bx2]+[b2i=1n(xi-x)2]+[2y-a+bx-i=1nyi-y-2by-a+bxi=1nxi-x]-[2bi=1nxi-xyi-y],其中,[2y-a+bx-i=1nyi-y-][2by-a+bx-i=1nxi-x]=[2y-a+bxi=1nyi-y-bxi+bx]=[2y-a+bxi=1nyi-bxi-y-bx]=[2y-a+bxi=
4、1nyi-bxi-ny-bx]=0所以,[Qa,b]=[i=1nyi-y2+ny-a+bx2+b2i=1nxi-x2-2bi=1nxi-xyi-y]=[i=1nyi-y2+ny-a+bx2+i=1nxi-x2b2-2bi=1nxi-xyi-yi=1nxi-x2]=[i=1nyi-y2+ny-a+bx2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22][-i=1nxi-xyi-y2i=1nxi-x2]o由于[xi,i=1,2,3,n]这n个数据一般不会相等(否则这n对数据己经在一条平行于y轴的直线上了,再求回归克线已失去意义),所以[i=1nxi-
5、x2^0]观察上面最后的表达式,其屮[yi,y,n,x,刈都是常数,而含a,b的兩项是非负数,当且仅当它们等于0时,[Qa,b]取最小值,这就是说,当[b=i=1nxi-xyi-yi=1nxi・x2],[a=y-bx]时[Qa,b]达到最小值。以上是课本上利用最小二乘法求线性回归方程系数的过程。我们沿着这个思路继续下去,就能得到相关系数和相关指数。一、相关系数r的产生由上面的推导可知,在[b=i=1nxi-xyi-yi=1nxi-x2],[a=y-bx]时,[Qa,b]达到最小值,最小值为[m=i=1nyi-y2-i=1nxi・xyi・y2i=1nxi・x2]=[i
6、=1nyi-y2[1-i=1nxi-xyi-y2i=1nxi-x2i=1nyi-y2]记[r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2],则[m=i=1nyi-y21+r2]om的值就是残差平方和的最小值,m的大小就能描述变量[x,y]的线性相关的程度,m越小,变量[x,y]的线性相关程度就越强,m越大,变量[x,y]的线性相关程度就越弱,但是,m是一个有单位的量,同时m的值受样本容量的影响很大,为了使不同的样本和不同的样本容量的数据有一个统一的评判标准,我们选择r来刻画变量[x,y]的线性相关程度,r叫做相关系数,它是一个没有单位的量,并且无论
7、样木容量多大,总有[-18、]越小,m的值就越大,两个变量的线性相关性就越弱,通常,当[Ir
9、>0.75]时认为两个变虽有很强的线性相关关系,当[0.3010、vo.75]时认为两个变量相关性一般,而当[Ir
11、<0.30]时认为两个变量不具有线性相关性。由m与r的关系式我们还可以得到:因为[m>0],[i=1nyi-y2>0],所以[1-r2>0],所以,[IrI<1]o由此可以得出著名的柯西不等式。若[Ir
12、=1],贝iJ[m=0