人人都该知道的统计相关性知识

人人都该知道的统计相关性知识

ID:30973459

大小:220.50 KB

页数:5页

时间:2019-01-04

人人都该知道的统计相关性知识_第1页
人人都该知道的统计相关性知识_第2页
人人都该知道的统计相关性知识_第3页
人人都该知道的统计相关性知识_第4页
人人都该知道的统计相关性知识_第5页
资源描述:

《人人都该知道的统计相关性知识》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、人人都该知道的统计相关性知识蔡立英/编译●一个寻常的分析错误会阻碍生物医学研究并误导公众。2012年,《新英格兰医学杂志》刊登了一篇论文,声称吃巧克力可以提高认知功能。得出这一结论的根据是每个国家的诺贝尔奖得主数量与该国巧克力人均消费量具有强相关性。当我读到这篇论文时,我诧异于它竟然通过了同行评审,因为对我而言很显然作者犯了两个常见错误,这是我在生物医学文献中看到研究者进行相关分析时经常犯的错误。相关性描述了两个观察现象之间的线性关系强度(为了简化说明,这里我着重阐述最常用的线性关系——皮尔森相关)。例如,一个变量值的增加,比如巧克力消费

2、量,可能会跟随着另一个变量值的增加而增加,比如诺贝尔奖得主。或者可能是负相关:一个变量的增加会伴随另一个变量的减少。因为有可能两个数值不能用相同单位表示的变量关联起来——例如,人均收入和霍乱发病率——它们的关系是用一个无单位的数值来计算的,那就是相关系数。相关系数的数值范围是从-1到+1,绝对值越接近1,则表示相关性越强。相关系数鲜明的简洁性隐藏了解释其意义时面临的相当大的复杂性。《新英格兰医学杂志》那篇论文的一个错误是,作者在群体数据的基础上得出关于个体的结论时,陷入了生态学谬误中。这个案例中,作者计算了集合层面(国家)的相关系数,然后

3、错误地把这个数值用于得出关于个体层面的结论(吃巧克力提高认知功能)。实际上,个体层面的准确数据完全是未知的:没有人收集过诺贝尔奖得主吃过多少巧克力的数据,甚至于他们到底是否吃过。我并不是唯一一个注意到这个错误的人。化学家阿舒托什·乔伽莱卡(AshutoshJogalekar)在他的《科学美国人》博客《好奇的波函数》中写了一篇彻底的批判文章。加利福尼亚大学圣迭戈分校的比阿特丽斯·戈隆布(BeatriceA.Golomb)甚至与一个团队的合作者一起检验了这个假设,指出两个变量之间不存在相关性。许多新闻机构不顾科学界的批评,报道了这篇论文的研究

4、结果。论文从未被撤回,至今已经被引用23次。即使当错误的论文被撤回时,相关的新闻报道还保留在互联网上,还能继续传播错误信息。如果这些反映出对统计有所误解的错误结论甚至能出现在《新英格兰医学杂志》这样的著名期刊,那么我很好奇,这样的错误出现在生物医学文献中的总体频率有多大?巧克力消费量和诺贝尔奖得主的例子把我引到了另一个更常见的曲解相关性分析的例子:即认为相关性就意味着因果关系的想法。计算出一个相关系数并不能解释一个数量一致性关系的性质,而只能评估这种一致性的强度。两个因素之间表现出一种关系,可能不是意味着它们之间相互影响,而是意味它们都被

5、同一个隐藏的因素影响——在这个例子中,可能是一个国家的富裕程度影响了巧克力的消费量和高等教育的可获取性。相关性可以很肯定地指出一个可能存在的因果关系,但是并不足以证明存在这样的因果关系。杰出的统计学家乔治·博克斯(GeorgeE.P.Box),在他的著作《实证模型的建立与响应面》中写道:“本质上而言,所有统计模型都是错误的,但是其中有一些是有用的。”所有统计模型都是使用数学概念对一个真实世界中的现象的描述,所以只是现实的一种简化。如果统计分析是精心设计的,与目前好的实践方针相一致,并且对所用方法的局限性有彻底的理解,那么,它们会非常有用。

6、但是如果模型并不是按照上述两条原则设计的,那么它们不仅会不准确、毫无用处,而且还具有潜在的危险性——误导医生和公众。我经常使用和设计数学模型来探究公共健康问题,尤其在健康技术评估中使用数学模型。为了这一目的,我使用已经发表的研究成果中的数据。不加批判地使用发表的数据来设计这些数学模型,可能会导致得出关于公共健康的不准确、完全无用,甚至更糟的是不安全的结论。开始认识数据在精心设计的实验中,相关性可以证实因果关系的存在。但是,在从非实验数据中得出因果推断之前,必须小心谨慎地使用统计模型。例如,加利福尼亚大学旧金山分校流行病学家史蒂芬·赫利(S

7、tephenHulley)及其同事发表的一个随机控制实验确定,激素替代疗法会导致心脏冠状动脉疾病的风险增加,尽管以前发表的非实验研究的结论是,激素替代疗法会降低心脏冠状动脉疾病的风险。这个精心设计的实验表明,非实验研究中低于心脏冠状动脉疾病平均概率的结果,是由那些使用激素治疗的人具有更高的平均社会经济地位带来的好处导致的,而不是由疗法本身导致。对非实验研究的重新分析,包括社会经济地位对收入的影响分析,得出了与随机控制实验相同的结果。但是损害已经造成:美国食品药品管理局顾问委员会已经批准激素替代疗法更换标签,允许把预防心脏疾病列为一个指示,

8、这几乎是在上述实验十年之前。即使科学家很清楚“相关性不等于因果关系”的真言,但是把相关性和因果关系混为一谈的研究在顶级期刊中还是太普遍。一篇被广泛讨论的1999年发表在《自然》杂志上的论文发现

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。