资源描述:
《《两变量关联性分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十一章两变量关联性分析一般地,两个连续随机变量间的线性联系称为线性相关(linearcorrelation),也称为简单相关(simplecorrelation),两个分类变量间的联系则称为关联(association)。散点图判断两个变量是否具有相关关系最直观的办法是绘制散点图(scatterplot),在实际研究中也是首先要做的一步。将两变量置于直角坐标轴上,把其中一变量取作X,另一个取作Y,据此在直角坐标系(X,Y)中标出对应的点来,这样的图形称作散点图。常见的散点图如图11-2所示。相关的种类1)正相关(positivecorrelation):一般地,在图中若有随增
2、大而线性上升的趋势,则称为正相关。2)负相关(negativecorrelation):在图中若有随增大而线性下降的趋势,则称负相关。3)零相关(zerocorrelation):在图中若或不随另一变量的改变而改变,则称零相关。4)非线性相关(nonlinearcorrelation):若散点呈曲线形状,则变量间可能呈曲线关系,不宜做线性相关。关联强度指标--相关系数意义:相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。2.计算:样本相关系数的计算公式为(11-3)相关系数的特点1.
3、相关系数r是一个无量纲的数值,且-10为正相关,r<0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.例11-2计算例11-1中凝血酶浓度X与凝血酶时间Y之间样本相关系数。由例11-1得,,由公式11-3得相关系数的统计推断相关系数的假设检验直接查相关系数临界值表;t检验(11-5)(11-6)例11-3继例11-2中算得r=-0926后,试检验相关是否具有统计学意义检验步骤本例n=15,r=-0.926,由公式(11-4)和公式(11-5)得本例,查界值表得,故拒绝接受,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表
4、的结果是一致的。线性相关中应注意的问题1.样本的相关系数接近零并不意味着两变量间一定无相关性.两个有联系的变量并非都属线性联系。两变量间无线性关系,但却存在非线性的曲线联系。例如,很高血压和很低血压的人死亡率均较高,而中等血压的人死亡率较低,于是,死亡率和血压之间有曲线性联系。还有如血液浓度与时间之间的关系、某放射性污染物对环境的污染浓度与污染源距离之间的关系等,都有曲线性联系,但它们的样本相关系数却都接近零。故通常应先绘出样本值的散点图,利用散点图可直观地判断两变量之间是否具有线性联系。2.一个变量的数值人为选定时莫作相关..一个变量的数值随机变动,另一个变量的数值却是人为选
5、定的。例如,为研究药物的剂量-反应关系3.出现异常值时甚用相关.4.相关未必真有内在联系.5.分层资料盲目合并易出假象第二节秩相关(rankcorrelation)等级相关适用条件:①资料不服从双变量正态分布而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。一、Spearman秩相关1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2.计算公式d为p,q之差例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析表11-2
6、急性白血病患儿的血小板(109/L)和出血症状病人编号血小板数秩次p2出血症状秩次q2pqXpYq(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)12111+++11.5132.2511.513824++9.0811816539+7.04921310416-3.512.2514426525++9.08145540636++9.08154740749-3.52.2524.51060864-3.512.25281260981-3.512.2531.5129010100-3.512.2535143811121+++11.5132.25126.25200412144-3
7、.512.2542合计—78650-78630451利用表11-2中的数据容易算得秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验秩相关系数的统计推断检验步骤假设检验统计推断当时,可查书后的临界值表,若秩相关系数超过临界值,则拒绝;当时,也可采用公式(11-5)或(11-6)式做检验例11-5对例1-4的秩相关系数作假设检验例11-4中算得查临界值表,,按的水准,不能拒绝,可以认为急性白血病患儿的出血症状与血小板数之间无相关关系第三节分类变量的