欢迎来到天天文库
浏览记录
ID:43922494
大小:945.50 KB
页数:115页
时间:2019-10-16
《SAS软件与统计应用教程》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第四章相关分析与回归分析4.1简单相关分析4.2回归分析4.3非线性回归4.1简单相关分析4.1.1相关分析的基本概念4.1.2用INSIGHT模块作相关分析4.1.3用“分析家”作相关分析4.1.1相关分析的基本概念1.散点图散点图是描述变量之间关系的一种直观方法。我们用坐标的横轴代表自变量X,纵轴代表因变量Y,每组数据(xi,yi)在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度。图4-1就是不同形态的散点图。(a)(b)(c)(d)就两个变量而言,如果
2、变量之间的关系近似地表现为一条直线,则称为线性相关,如图4-1(a)和(b);如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图4-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图4-l(d)。2.相关系数相关系数是对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;总体相关系数的计算公式为:其中COV(X,Y)为变量X和Y的协方差,D(X)和D(Y)分别为X和Y的方差。若相关系数是根据样本数据计算的,则称为样本相关系数(简称为相关系
3、数),记为r。样本相关系数的计算公式为:一般情况下,总体相关系数ρ是未知的,我们通常是将样本相关系数r作为ρ的近似估计值。相关系数r有如下性质:●相关系数的取值范围:–1≤r≤1,若04、5、r6、≥0.8时,可视为高度相关;0.5≤7、r8、<0.8时,可视为中度相关;0.3≤9、r10、<0.5时,视为低度相关;当11、r12、<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。3.相关系数的显著性检验相关系数的显著性检验也就是检验总体相关系数是否显著为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:1)提出假设:假设样本是从一个不相关的总体中抽出的,即H0:ρ=0;H1:ρ≠01)提出假设:假设样本是从一个13、不相关的总体中抽出的,即H0:ρ=0;H1:ρ≠02)由样本观测值计算检验统计量:的观测值t0和衡量观测结果极端性的p值:p=P{14、t15、≥16、t017、}=2P{t≥18、t019、}3)进行决策:比较p和检验水平作判断:p<,拒绝原假设H0;p,不能拒绝原假设H0。4.置信椭圆可以生成两类置信椭圆:●均值置信椭圆:预测两变量均值的置信区域;●预测值置信椭圆:预测两变量分布个别观测值的置信区域。关于预测值置信椭圆的两点说明:1)作为置信曲线,表示数据以设定的百分率(置信水平)落入的椭圆区域;2)作为相关性指标。若两个变量不相关,椭圆应20、该为圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。4.1.2用INSIGHT模块作相关分析【例4-1】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。表4-1就是该银行所属的25家分行2002年的有关业务数据。21、表4-1某商业银行2002年的主要业务数据银行想知道,不良贷款是否与贷款余额、应收贷款、贷款项目的多少、固定资产投资等因素有关?如果有,是一种什么样的关系?关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2………………206.8139.47.22864.32122、11.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1设表4-1中数据已经存放在数据集Mylib.bldk中。1.制作散
4、
5、r
6、≥0.8时,可视为高度相关;0.5≤
7、r
8、<0.8时,可视为中度相关;0.3≤
9、r
10、<0.5时,视为低度相关;当
11、r
12、<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。3.相关系数的显著性检验相关系数的显著性检验也就是检验总体相关系数是否显著为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:1)提出假设:假设样本是从一个不相关的总体中抽出的,即H0:ρ=0;H1:ρ≠01)提出假设:假设样本是从一个
13、不相关的总体中抽出的,即H0:ρ=0;H1:ρ≠02)由样本观测值计算检验统计量:的观测值t0和衡量观测结果极端性的p值:p=P{
14、t
15、≥
16、t0
17、}=2P{t≥
18、t0
19、}3)进行决策:比较p和检验水平作判断:p<,拒绝原假设H0;p,不能拒绝原假设H0。4.置信椭圆可以生成两类置信椭圆:●均值置信椭圆:预测两变量均值的置信区域;●预测值置信椭圆:预测两变量分布个别观测值的置信区域。关于预测值置信椭圆的两点说明:1)作为置信曲线,表示数据以设定的百分率(置信水平)落入的椭圆区域;2)作为相关性指标。若两个变量不相关,椭圆应
20、该为圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。4.1.2用INSIGHT模块作相关分析【例4-1】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。表4-1就是该银行所属的25家分行2002年的有关业务数据。
21、表4-1某商业银行2002年的主要业务数据银行想知道,不良贷款是否与贷款余额、应收贷款、贷款项目的多少、固定资产投资等因素有关?如果有,是一种什么样的关系?关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2………………206.8139.47.22864.321
22、11.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1设表4-1中数据已经存放在数据集Mylib.bldk中。1.制作散
此文档下载收益归作者所有