论数据分组的误导作用

论数据分组的误导作用

ID:32476194

大小:495.36 KB

页数:5页

时间:2019-02-07

论数据分组的误导作用_第1页
论数据分组的误导作用_第2页
论数据分组的误导作用_第3页
论数据分组的误导作用_第4页
论数据分组的误导作用_第5页
资源描述:

《论数据分组的误导作用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第4期总第1198期商业经济与管理No.4Vol.1982080年4月JOURNALOFBUSINESSECONOMICSApr.2008论数据分组的误导作用张皓‘,黄向阳2(1。中国人民大学书报贵料中心,北京100086;2.中国人民大学统计学院,北京100872)摘要:对数据分组之后再进行处理是一种常见方法,但是这种方法可能产生错误结果。本文搜集了几个实际的数据分析案例,说明对数据的分析可以是任意的,但是对分析结果的解释必须受制于研究对象和周围条件。本文结合案例提出了一些避免分组陷阱的手段,

2、还提供了理解辛普森悖论的一个角度。关键词:辛普森悖论;数据分组;统计方法的滥用中图分类号:C8文献标识码:A文章编号:1000一2154(2008)04-0062一05一、引言科学方法的基本前提是对事物进行分类,然后假设类之间存在着相对稳定的联系,作为统计学家的K.皮尔逊在《科学的规范》中指出“事实的分类、对它们的关联和相对意义的认识是科学的功能”。统计学家所发展起来的统计方法充分体现了这一观点,1980年代之后成熟起来的数据挖掘技术仍然认为自己的主要任务是分类和关联分析。从逻辑上来看,某种程度

3、的分类或者汇总是不可避免的,但是把研究对象分为若干类在逻辑上又必然存在缺陷。要保证分类的合理性,就必须满足数据的同质性,而同质性假设在最好的情况下是一种近似,在比较糟糕的情况下则是研究者个人判断的结果。社会学家由于意识到自己研究的是复杂现象,所以从18世纪起就一直反对使用数据同质性假设。最典型的例子是对“平均人”概念的看法。虽然平均人可以反映部分现实,但它所掩盖的可能多于所能揭示的东西,而且缺乏现实生活中的对应物。尽管存在种种有力的反对意见,以分类为依据的数据分组还是逐渐成为统计分析的基本程序之

4、一。而对于分组方法的认真检视则逐渐淡出统计学家的视野,相关论述已经很罕见了,但陈希孺在《数理统计学简史》中还是用了几页篇幅回顾了有关问题①并指出〔’〕:开维伯格和科洛特⋯⋯揭示了将统计方法用于社会问题的困难所在,即如何决定所研究的总体的细分程度,以便可以通过数据资料对问题进行有意义的分析。这一点不仅在当时,即便在今日,也不能说有了完满的解决。陈希孺特别指出这个问题从根本上说不是一个统计或数学的问题,可能正因为它是一个更基本的问题,所以即使在统计学方法高度发展的20世纪.分组不当还在不断引发各种问

5、题。而要深人理解分组方式收稿日期二2008-01-23作者简介:张皓(1968一),北京人,中国人民大学书报资料中心经济编辑室主任,编辑,主要从事编辑学,经济统计研究;黄向阳(1970一),湖北黄梅人,中国人民大学统计学院副教授,经济学博士,主要从事风险管理和精算研究。①从142页到149页的主要内容是讨论19世纪的社会学研究如何处理数据的同质性问题。万方数据第4期张皓,黄向阳:论数据分组的误导作用的影响,也要超越统计学的边界才有可能。分组的实现方法一般是,首先按照一个或多个分类指标对数据进行分

6、组,然后分析各组数据的统计指标,由此形成的交叉表是进行二维或者高维列联分析的基础数据。从方法依据来看,这是进行数据压缩的具体手段之一,而数据压缩是统计方法的基本特点;从使用效果来看,列联表和几个简单百分比在结果的呈现方面具有很强的说服力,因此也得到广泛使用。由于这两个原因,数据分组变成了基本统计方法之一。但是这种做法往往隐藏着很多的陷阱。首先,数据压缩必然引起种种后患,比如信息损失、指标失真或者虚假相关,如果考虑不周就很有可能得到似是而非的分析结论。其次,这种做法本身具有误导能力,可能被有心人士

7、用来操纵数据的解读,从而导致统计方法的滥用。本文搜集了几个数据分析中的实例,说明了汇总数据可能造成误导,并指出了一些解决的方法。一般来说,对数据的处理可以是任意的,但是赋予处理结果以意义就必须受到各种环境的限制。当然,在统计分析中如何有效地结合“让数字说话”和“跟常识比对”这两种方法是一个没有定论的问题,值得我们不断探索和改进。二、和数据分组有关的几个案例辛普森悖论可以看作分组不当造成理解混乱的典型案例,但是在统计学历史上,还有一个已经被我们忘却的发生在1933年因为分组不当造成的风波。下面本文

8、将介绍1933年的风波、辛普森悖论和出现在统计学教科书上涉及分组问题的两个案例。(一)1933年的统计学风波Stigler回顾了已经被大家忘却的1933年统计学风波[[21,故事的主角是当时很有名的统计学家Secrist和现在依然很有名的HotellingoSecrist在1933年出版了名为《平庸状态在商业活动中的胜利)(TheTriumphofMediocrityinBusiness),指出平庸状态在竞争行业中会逐渐流行,最后占据主导地位。这本书的篇幅和数据量是令人惊叹的:作者考察了百货商店

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。