欢迎来到天天文库
浏览记录
ID:50250520
大小:523.95 KB
页数:22页
时间:2020-03-07
《SAS学习系列21. 相关分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、21.相关分析相关分析和回归分析是研究变量与变量间相互关系的重要方法。相关分析是研究两个或两组变量之间的线性相关情况,回归分析是拟合出变量间的表达式关系。(一)Pearson直线相关一、适用于两个变量均为服从正态分布,每对数据对应的点在直角坐标系中(即散点图)呈现直线趋势。做相关分析时,要注意剔除异常值;相关关系不一定是因果关系。二、用相关系数r∈[-1,1]来表示相关程度的大小:r>0:正相关;r<0:负相关;r=0:不相关;r=1:完全正相关;r=-1:完全负相关。相关程度的判断标准:看相关系数的平方r2,若r2<0.5,结果无实际价值。注:相关系数只是刻画
2、直线相关(Y=X2相关系数≠1)。三、假设检验1.H0:总体相关系数ρ=0;H1:ρ≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;2.若H0成立,从ρ=0的总体中抽样,所得到的样本相关系数r呈对称分布(近似正态分布),此时可用t检验。3.必要时对相关系数做区间估计从相关系数ρ≠0的总体中抽样,样本相关系数的分布是偏态的。用Z变换后,服从某种正态分布,估计z,再变换回r.(二)Spearman等级相关,也称Spearman秩相关对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数rs,以此来说
3、明两个变量间相关关系的密切程度。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料;也适用于某些不呈正态分布或难于判断分布的资料。关于编秩将各Xi由小到大编秩得RXi(1,…n),当遇到相等的值时要用平均秩,例如X2=X4,按编秩为3和4,应该取平均秩Rx2=Rx4=(3+4)/2=3.5假设检验H0:总体相关系数ρs=0;H1:ρs≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;另外,Kendall等级相关系数τ∈[-1,1],也可以对两个变量作等级相关分析,而且可对多个变量作等级相关分析。(三)典型相关分析实际问题
4、中经常遇到研究两组变量间的线性相关情况,例如,考察q个质量指标与p个原材料指标之间的内在联系和相关关系,这就需要用到典型相关分析。其思想类似于主成分分析(降维思想),分别找出两组变量的一对线性组合V和V的相互关系,既可以使变量个数简化,又可以达到分析相关性的目的。如果一对线性组合不够,可以继续找下一对线性组合之间的关系,直到找不到相关变量对时为止。至于选取多少对典型相关可通过检验来确定。注:(1)第一对典型相关含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减,各对典型相关所含的信息互不重复;(2)经标准化的两组变量间的典型相关系数与原始的两组变量间
5、的相应典型相关系数是相同的;(3)每个典型变量除在另一组里与其配对的那个典型变量外,它同所有其他典型变量变量均不相关;(4)第一对典型相关的大小至少同任一变量与对应的那组变量间的多重相关一样大。假设检验:1.整体检验H0:ρ1=…=ρr=0;H1:ρ1,…,ρr中至少ρ1≠0;检验的统计量,若小,则拒绝H0,接受H1.在原假设为真的情况下,检验的统计量Q1(公式略),近似服从自由度为pq的c2分布。在给定的显著性水平α下,若c2³c2(pq),则拒绝原假设,认为至少第一对典型变量之间的相关性显著。再检验下一对典型变量之间的相关性。直至相关性不显著为止。我们希望使
6、用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。H0经检验被拒绝,则应进一步做下面的检验假设:2.部分检验H0:ρ2=…=ρr=0;Hl:ρ2,…,ρr至少有一个不为零;若原假设H0被接受,则认为只有第一对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设:H0:ρ3=…=ρr=0;H1:ρ3,…,ρr至少有一个不为零;依次进行下去,直到对某个k,H0:ρk十1=…=ρr=0;H1:ρk十1,…,ρr至少有一个不为零。检验的统计量Q(公式略),近似服从自由度为(p-k)(q-k)的c2分布。在给
7、定的显著性水平α下,如果c2³c2[(p-k)(q-k)],则拒绝原假设,认为至少第k+1对典型变量之间的相关性显著。(四)PROCCORR过程步SAS提供的相关分析过程步是PROCCORR,可以计算:Pearson相关系数、Spearman等级相关系数、Kendall’stau-b统计量、Hoeffding’s独立性分析统计量D。此外,还可以计算偏相关系数(固定其它变量,看两个变量的相关性)等。基本语法:PROCCORRdata=数据集;VARvariable-list;WITHvariable-list;8、ist;>说明:(1)默
8、ist;>说明:(1)默
此文档下载收益归作者所有