非参数统计学讲义(第五章)相关与回归

非参数统计学讲义(第五章)相关与回归

ID:18326154

大小:615.00 KB

页数:23页

时间:2018-09-16

非参数统计学讲义(第五章)相关与回归_第1页
非参数统计学讲义(第五章)相关与回归_第2页
非参数统计学讲义(第五章)相关与回归_第3页
非参数统计学讲义(第五章)相关与回归_第4页
非参数统计学讲义(第五章)相关与回归_第5页
资源描述:

《非参数统计学讲义(第五章)相关与回归》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、非参数统计学讲义主讲:统计系袁靖第五章相关和回归§1引言所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X和文盲率Y之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。在数理统计学中,我们使

2、用相关系数定义变量X和变量Y之间的相关性。度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。(0.1)对于样本,,……,来说,Pearson相关系数为(0.2)如果在这个样本中的n个观察值独立,则r是的渐近无偏估计;如果它又是二元正态分布,则r是的ML估计。为了检验,,可以选取统计量结论:Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数和Kendallτ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或

3、联系。§2两个样本的相关分析一、等级相关等级相关(RankCorrelation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定22第页研究背景1.基本方法两个样本X、Y,其观察数据可以配对为,,……,。将排序后评秩,其秩记作U,与相对应的秩为;同样,排序后评秩,秩记作V,与相对应的秩为。这样得到的n对秩,,…,可能每一对完全相等,也可能不等。由于每一样本都是n个数据评秩,因此与的取值都是从1到n。X、Y的秩可能完全一致,即对于所有的i来说,有=,表5—1是完全一致的评秩结果。X、Y的秩可能完全相反,

4、表5—2是完全相反的评秩结果。如果X、Y完全相关,应该对于所有的i有=,即—=0。因此,与之差可以用来度量X、Y的相关程度。定义表5-1完全一致的评秩X的秩Y的秩1122……n-1n-1nn表5-2完全相反的评秩X的秩Y的秩1n2n-1……n-12n1则两组秩完全相关时,(i=1,2,…,n)应该为零。越大,X、Y之间的相关越不完全。但由于可正可负,直接用测度相关,会出现正负抵消,而不能真实反映与差值的大小,所以宜采用,即(0.3)(5.3)式的这个秩差值平方和的大小既受到n22第页的多少的影响,又受到两组秩不一致程度

5、的影响,因此,采用相对的测量指标有利于说明X、Y的相关程度。因为的最大值反映X、Y完全不相关的情况,所以,用(5.3)式除以的最大值,可用来评价X、Y之间秩的差值是否与完全不相关时接近。若实际计算的与X、Y完全不相关情况下的接近,那么两个样本的相关程度较低,若实际计算的与最大值的比越小,则两个样本的相关程度越高。的最大值即X、Y间完全不相关情况下的秩差值平方和,可以根据表5—2所列的数据计算。因为这是X、Y完全不相关的评秩结果。的最大值为(0.4)(5.4)式的中括号内最后一项,当n为奇数时是22;n为偶数时是12。(

6、5.3)式除以(5.4)式得到(0.5)(5.5)式的取值从0到1。根据表5-1中的数据计算(5.5)式值为0,表5-2中的数据计算的(5.5)式值为1,即X、Y的秩完全一致时,(5.5)式的值为0,X、Y的秩完全不一致时,(5.5)式的值为1。测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。斯皮尔曼的等级相关系数(Spearmancoefficientofrankcorrelation)是测定两个样本相关强度的重要指标。其计算公式为(0.6)斯皮尔曼相关系数也写为,在有下标注以s是为表明这个相关

7、系数r不是积矩相关的简单相关系数,而是等级相关的Spearman相关系数。注:①由于(5.6)式与(5.5)式不同,所以,R的取值从一1到十1,表明X、Y完全相关,R=十l为完全正相关,R=一1为完全负相关。越接近于l,表明相关程度越高,反之,越接近于零,表明相关程度越低,R=0为完全不相关。R>0为正相关,R<0为负相关。通常认为为相关程度较高。②Spearman秩相关系数检验临界值查表可得,P198。③存在打结时,Spearman统计量要作相应修正。④在大样本时,可用正态近似作检验。1.应用【例5-1】经济发展水平

8、和卫生水平之间的相关分析对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表5—4。表5-4某地区经济水平与卫生水平得分街道号经济水平卫生水平街道号经济水平卫生水平22第页182867848028778878773606598075498881094965756411858568990126870分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。