资源描述:
《沃登编辑:医学论文中统计分析错误辨析与释疑_2》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、·沃登编辑·医学论文中统计分析错误辨析与释疑定性资料统计分析方法的合理选择(2) 一、误用χ2检验回答相关性问题例1:很多医学期刊论著中都采用χ2检验处理类似表1的资料,其目的是希望回答表中“两个有序变量之间是否呈相关关系”。表1 不同期次矽肺患者肺门密度级别的人数分布(例数)矽肺期次肺门密度级别++++++合计Ⅰ4318814Ⅱ196Ⅲ合计492原文用χ2检验处理表1资料,得:χ2=163101,P<01005,结论为:可认为肺门密度与矽肺期次有关,结合本资料可见肺门密度有随矽肺期次增高而增加的趋势。问:处理此资料所用的统计分析
2、方法以及所得出的结论有何不妥之处?对差错的辨析:因表1资料叫做“双向有序且属性不同的二维列联表资料”,对于这种资料的处理有3个不同的目的,因此,也就对应着3套不同的统计分析方法。原文作者分析此资料的目的是“希望考察表中两个有序变量之间是否呈相关关系”,而χ2检验是检验“表中两个定性变量之间是否互相独立”,当检验的结果为拒绝“独立性”假设时,其对立的假设不是“相关”,而应当是“各矽肺期次的患者在3种肺门密度级别上的人数分布是不同的”。原作者误认为用χ2检验拒绝了“独立性”假设后,其对立的假设一定是“相关”。事实上,从χ2检验的计算公式
3、上不难看出,它与表中两个有序变量本身毫无关系,若将表中任何两行上的频数互换或将任何两列上的频数互换,它们所对应的χ2检验统计量的数值(本例为χ2=163101)是不会变化的。显然,变换后的数据已预示其结论要发生变化,而χ2检验的结果作者单位:100036首都医科大学继续教育学院(刘惠刚);军事医学科学院生物医学统计咨询中心(胡良平)却隐含着结论是不变的,这充分说明χ2检验用于处理由有序变量形成的二维列联表资料是不合适的。释疑:结合表1的标题可知,若一定要根据χ2检验的结果作出结论的话,其结论应当是针对各行上的“频数分布”是否相同来作
4、出明确的回答,而绝对不应当针对表中两个有序变量之间是否呈“相关。要想对后者作出明确回答需要选用分析定性资料的相关分析方法,如:Spearman秩相关分析,Kendall秩相关分析或典型相关分析。就例1而言,若采用Spearman秩相关分析,得:rs=0153215,P<010001,结论为:表中两个有序变量之间呈正相关关系,即随着矽肺期次的增加肺门密度级别也逐渐增大,两者之间的相关关系具有统计学意义。χ2有人可能提出质疑,检验的结果不也得出了P<01005的统计学结论吗?若再具体计算其概率,很可能也会有P<010001的统计学结论,
5、因为本例χ2=163101相当大。一点不错,若根据χ2检验的结果,本例也的确可以得出P<010001的统计学结论,但这纯粹是一种“巧合”,无论其概率多么小,其专业结论也只能回答表中各行上频数分布是否相同,而不能回答表中两个有序变量之间是否呈相关关系。若将表1资料换成表2资料,两种计算方法之间的差别一下就显现出来了。表2 不同期次矽肺患者肺门密度级别的人数分布(例数)(假设数据)矽肺期次肺门密度级别++++++合计Ⅰ215678290Ⅱ989131229Ⅲ2481684420合计472324143939若统计分析的目的是考察表2中两个
6、有序变量之间的相关关系是否具有统计学意义,则:其一,若采用错误的统计分析方法(即χ2检验),得:χ2=5031776,P<010001,错误的专业结论为:矽肺期次与肺门密度级别之间的相关关系有统计学意义;与该检验方法对应的正确的专业结论为:表2中各行上肺门密度级别的人数分布不同,具体地说:矽肺Ⅰ期的患者多数肺门密度级别为“+”级、矽肺Ⅱ期的患者多数肺门密度级别为“++”级和“+++”级,而矽肺Ⅲ期的患者多数肺门密度级别为“+”级和“++”级。其二,若选用正确的统计分析方法(如Spearman秩相关分析),得:rs=0100059,P
7、=019856,正确的专业结论为:表2中两个有序变量之间的相关关系没有统计学意义。例2:文献和很多医学期刊论著中都套用χ2检验处理类似表3的资料,计算所得的χ2=241639,P<01005,得出的专业结论为“依沙酰胺治疗皮肤真菌的疗效与病程有关”的专业结论。试问:这样做错在哪?正确的统计分析方法和专业结论是什么?不满1月81111至3月合计24014649435对差错的辨析:表3看上去好象与表1不同,但本质是相同的,即也是双向有序且属性不同的二维列联表资料,若希望考察表3中两个有序变量之间的相关关系是否具有统计学意义,用χ2检验是
8、错误的,宜选用定性资料的相关分析方法。释疑:若用Spearman秩相关分析,得:rs=-0121479,P<010001,专业结论为:依沙酰胺治疗皮肤真菌的病程与疗效之间有负相关关系,即病程越长疗效越差,表3中两个有序变量之间的相关关