欢迎来到天天文库
浏览记录
ID:18164473
大小:300.00 KB
页数:9页
时间:2018-09-14
《简单线性相关与回归分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、临床科研设计和统计分析错误辨析与释疑简单线性相关与回归分析军事医学科学院生物医学统计咨询中心胡良平 一、简单线性相关与回归分析常见错误概述 两个变量之间进行简单线性相关与回归分析时,常见的错误有哪些?人们在研究两个变量之间的相互关系或依赖关系时经常运用简单线性相关分析与回归分析,然而,他们经常犯这样或那样的错误,导致结论的可信度低,有时,甚至得出绝对错误的结论来。这方面常见的错误概括起来有如下几点:其一,脱离专业知识,盲目进行简单线性相关与回归分析;其二,对资料中因“过失误差”造成的错误视而不见,盲目进行统计计算得出违
2、背专业知识的结论来;其三,将数据直接录入计算机,调用统计软件快速得出计算结果,作出结论;其四,对于仅在统计学上有意义的计算结果,盲目给出专业上的“肯定结论”,但结论经不起实践的检验;其五,对于在专业上有联系且成对出现的变量(X,Y),当二者中至少有一个为非随机变量时,也进行相关分析。二、直线相关与回归分析常见错误案例与释疑 脱离专业知识盲目进行统计分析,或者忽视因过失误差造成的错误,将可能得出错误的结论。1、脱离专业知识,盲目进行直线相关与回归分析例1:某人在北京郊区调查居民被狗咬伤的情况,结果显示:各年龄组中被狗咬伤
3、的百分率是不同的,即:年龄由小到大,被狗咬伤的百分率依次为:很小、较小、较大、很大、较大、较小、很小、较大。原作者的一个惊人的发现是:年龄与百分率之间的相关系数r=0.9956,P<0.0001,因此拟合的直线回归方程也是有统计学意义的。故原作者认为:在所调查的市郊,被狗咬者的年龄与被狗咬伤的百分率之间有很好的线性关系,可用此直线回归方程来预测该地任何一位居民被狗咬伤的概率,以便提醒人们外出时携带必要的防身器械,要倍加小心,尽可能减少被狗咬的机会。对差错的辨析与释疑:这是一件多么荒唐可笑的事情啊!不会走的婴儿由大人抱在怀里,
4、其被犬咬伤的发生率肯定很低;刚刚学会走路的小孩,通常都有大人在他们身边,因此,他们被犬咬伤的发生率比前者可能会高一点,但不会太高;只有那些整天到处乱跑,又没有很强抵御能力的3-6岁的孩子,被犬咬伤的机会最大;7-12岁的儿童,通常都有比较强的抵御能力,因此,他们被犬咬伤的机会较前者会有所减少;依此类推,中青年被犬咬伤的发生率最低,上了年岁的老人,行动不便,他们被犬咬伤的发生率又会有所增大;而更老的体弱多病者整天呆在家中不出门,他们被犬咬伤的发生率几乎为零。这些都是生活常识,没有必要用统计学方法生搬硬套地去描述它。退一步说,即
5、使你一定要用一用统计学知识写一篇论文的话,也不应该用直线回归分析,很可能要运用多项式曲线回归分析。因为某地居民被犬咬伤的发生率与年龄之间更有可能呈“波浪型”变化趋势。况且,某地居民被犬咬伤的发生率与当时居民养犬的“数目、品种、养犬方式”等都有关系。仅通过一个直线回归方程来描述调查结果,并作出推断结论是毫无意义的。这是“脱离专业知识,盲目进行直线相关与回归分析”的一个生动案例。2、对资料中因“过失误差”造成的错误视而不见例2:某研究者对7例糖尿病患者给某种药物治疗后,测量其血中胰岛素和血糖的含量,结果如下:该研究者采用的是直线
6、相关分析,得:r=0.3140,P>0.05,结论为胰岛素含量和血糖的含量之间无直线相关关系。对差错的辨析与释疑:在原资料中,有6人胰岛素含量在10~24?u/ml之间,仅有1人为121?u/ml,远远大于其余6人,属可疑值。由于此数据的存在,可能会影响直线相关的结论,故应考虑可否将此数据剔除。首先应检查有无过失误差(测量错误或抄写错误等人为因素引起的误差),若属过失误差引起的,应坚决予以纠正;若不是由于过失误差所致,当指标观测值的总体服从正态分布时,可借助统计方法判断“可疑值”是否为“异常值”。在正常情况下,人胰岛素含量的
7、测定结果近似服从正态分布,故可用Grubbs法检验某些“可疑值”是否为异常值。本例经Grubbs法检验,得:Gb=2.25,P?0.01,可见121?u/ml的测定值属异常值,应予剔除。将第6对数据(121,238)剔除后重新计算相关系数得,r=-0.9363,P?0.01,说明人体血中胰岛素含量与血糖含量之间存在直线相关关系,与原作者结论不同。3、将数据直接录入计算机进行直线相关与回归分析 在进行直线相关与回归分析前,应先作散点图,只有这样才能得出正确的结论。例3:设有4组定量指标的数据如下,(Xi,Yi)(i=1、
8、2、3、4)是第i对在专业上有联系的指标。对各对指标均观测了11对数据,某人将各对数据直接录入计算机,用统计软件快速给出了计算结果,其结论是:这四组数据完全可以用同一个直线回归方程来描述,这样做对吗? 对差错的辨析与释疑:直观判断,虽难给出明确的答复,但没有绘制各对数据的散布图就盲目拟合
此文档下载收益归作者所有