欢迎来到天天文库
浏览记录
ID:40666263
大小:1.33 MB
页数:63页
时间:2019-08-05
《(改)4多元数据特征与相关分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第3讲1.3多元数据的数字特征与相关分析2、相关分析,偏相关分析本节要求掌握知识点:1、二元,多元数据的数字特征:均值,协方差矩阵,相关系数相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关系数的直观图示相关关系的测度(相关系数)对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总
2、体相关系数若是根据样本数据计算的,则称为样本相关系数,r相关关系的测度(相关系数取值及其意义)r的取值范围是[-1,1]
3、r
4、=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关关系-1r<0,为负相关05、r6、越趋于1表示关系越密切;7、r8、越趋于0表示关系越不密切选择不同的方法计算相关系数Pearson:双变量正态分布资料,连续变量Kendall:资料不服从双变量正态分布或总体分布未知,等级资料Spearman:等级资料(非参数检验)。§1.3多维数据的数字特征及相关分析1.3.1二维数据的数字特征及9、相关系数设是二维总体,从中取得样本数据,,……,数据观测矩阵1.样本数据的数字特征与相关系数记均值向量:记,为变量X,Y的观测数据的方差.记为变量X,Y的观测数据的协方差.观测数据的协方差矩阵且有,S≥0.样本相关系数(Pearson相关系数)且有.2.二维总体的相关系数设是二维总体,定义总体相关系数为由于观测数据的相关系数是总体相关系数的相合估计,故当n充分大时,有3.相关分析当二元总体的两个分量X与Y不相关,即时,而利用样本数据算得的相关系数,这时用样本数据相关系数来度量X与Y的关联性是不合适的.因此,需要做假设检验1)2)检验统计量3.相关分析3)10、当H0为真时,统计量t~t(n﹣2)检验p的值为对于给定的显著水平,若p<,则拒绝H0,这时,认为X与Y相关,用样本数据算得的相关系数反映了两变量的线性关联性的强弱.式中的t0为通过样本数据算得的统计量t的值.SPSS操作:相关分析1.做散点图:标题、标目、散点Graphs-Scattert-Simple-Defind双击Title加标题、标目2.相关分析:Analyze-Correlation-Bivariate-VariablesDASC操作例1.2:一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以11、预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?分析问题:目的、变量、关系编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.1212、6173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2待产妇尿雌三醇含量与产儿体重关系计算结果从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?对例子中相关系数必须进行假设检验例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关13、系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。H0:=0H1:≠0=0.05r=0.61,n=31,代入公式t==n-2=31-2=29t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29)=2.045,上述计算t=4.14>2.045,由t所推断的P值小于0.05,按=0.05水准拒绝,接受,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。等级相关ran14、kcorrelation适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始
5、r
6、越趋于1表示关系越密切;
7、r
8、越趋于0表示关系越不密切选择不同的方法计算相关系数Pearson:双变量正态分布资料,连续变量Kendall:资料不服从双变量正态分布或总体分布未知,等级资料Spearman:等级资料(非参数检验)。§1.3多维数据的数字特征及相关分析1.3.1二维数据的数字特征及
9、相关系数设是二维总体,从中取得样本数据,,……,数据观测矩阵1.样本数据的数字特征与相关系数记均值向量:记,为变量X,Y的观测数据的方差.记为变量X,Y的观测数据的协方差.观测数据的协方差矩阵且有,S≥0.样本相关系数(Pearson相关系数)且有.2.二维总体的相关系数设是二维总体,定义总体相关系数为由于观测数据的相关系数是总体相关系数的相合估计,故当n充分大时,有3.相关分析当二元总体的两个分量X与Y不相关,即时,而利用样本数据算得的相关系数,这时用样本数据相关系数来度量X与Y的关联性是不合适的.因此,需要做假设检验1)2)检验统计量3.相关分析3)
10、当H0为真时,统计量t~t(n﹣2)检验p的值为对于给定的显著水平,若p<,则拒绝H0,这时,认为X与Y相关,用样本数据算得的相关系数反映了两变量的线性关联性的强弱.式中的t0为通过样本数据算得的统计量t的值.SPSS操作:相关分析1.做散点图:标题、标目、散点Graphs-Scattert-Simple-Defind双击Title加标题、标目2.相关分析:Analyze-Correlation-Bivariate-VariablesDASC操作例1.2:一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以
11、预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?分析问题:目的、变量、关系编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.12
12、6173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2待产妇尿雌三醇含量与产儿体重关系计算结果从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?对例子中相关系数必须进行假设检验例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关
13、系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。H0:=0H1:≠0=0.05r=0.61,n=31,代入公式t==n-2=31-2=29t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29)=2.045,上述计算t=4.14>2.045,由t所推断的P值小于0.05,按=0.05水准拒绝,接受,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。等级相关ran
14、kcorrelation适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始
此文档下载收益归作者所有