社会统计悖论与转变问题.doc

社会统计悖论与转变问题.doc

ID:61780604

大小:28.00 KB

页数:4页

时间:2021-03-20

社会统计悖论与转变问题.doc_第1页
社会统计悖论与转变问题.doc_第2页
社会统计悖论与转变问题.doc_第3页
社会统计悖论与转变问题.doc_第4页
资源描述:

《社会统计悖论与转变问题.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、社会统计悖论与转变问题0引言社会统计分析的数据绝大数是分类意义上的。它们要么是定性的定类、定序数据,要么是定量的离散数据[1],并不具备严格意义上的“+、-、×、÷”等数学运算特性[2]。社会研究对象的这一“分类”特征,使得列联表成为社会统计分析中应用最为广泛的首选统计工具之一。因为列联表是非参数的或仅要求很弱的参数(分布)假定。但在列联表分析中,如何解释隐现其中的辛普森悖论一直是一个重要问题。此外,由于分类数据的非线性特征,回归函数不可能是线性的,需要寻找一个链接函数,将分类变量的期望值变换成自变量的一个

2、线性函数。然而,在实际应用中,logit变换与probit变换的内在差异与背后假定问题常为人们所忽视,进而影响了参数解释。1辛普森悖论问题辛普森悖论最早于1899年由卡尔•皮尔森(KarlPear-son)提出,但一直到1951年E.H.辛普森才正式描述并解释这一现象,后来就以他的名字命名该悖论。关于辛普森悖论,国内学者关注不多,只有李思一(1984)、王轶豪(1986)、倪加勋(1992)、吴素萍(2000)、耿直(2000)、史希来(2006)、王健(2008)等人作过介绍性研究。辛普森悖论是指,在分组

3、比较中都占优势的一方,在总体评价中却并不占优势。我们先来看一个源自真实生活的案例。1979年初,《美国历史画报》杂志对读者类型和获得期刊的方式进行了统计[3]。见表1。从表1可以看出,五种订阅方式中,老订户1月份的续订率要高于2月份,但合计后总的续订率却要低于2月份。除了上述案例外,还有其他很多真实的数据表现出了辛普森悖论现象,如Bickel等(1975),Wagner(1982),Neufeld(1995)。总之,辛普森悖论不是虚幻的,而是客观存在的。问题是如何解释辛普森悖论的产生原因。由于统计的基础在于

4、概率,于是人们就从概率论加以解释。辛普森悖论可定义为以下三种情况同时发生:(1)P(I

5、A,B)>P(I

6、A,B’’’’);(2)P(I

7、A’’’’,B)>P(I

8、A’’’’B’’’’);(3)P(I

9、B)4学海无涯虽然从概率角度可以诠释辛普森悖论问题,但在笔者看来,这种诠释具有柏拉图“理念论”的色彩。因为这里遵从的是概率的频率定义(列联表中表征的是频率),即P(E)=limN→∞f(E)=limN→∞nN事实上,由于试验或观测次数N为∞是做不到的,因此,列联表中的相对频率只能说是对概率的一种柏拉图意义上的

10、“理念”摹本,近似到何种程度仍然是有疑问的。如果从“现象”出发,就会发现:辛普森悖论与其说是悖论,不如说反映了社会统计分析对象的独特特征,即分类数据的非线性特征。正是因为非线性,使得列联表在不同的结构维度,表征了不可还原的不同统计信息。在上例中,由于将原始数据从三维结构压缩成二维结构,自然就失去了另一维的信息,分析结构的不一致恰恰是不同维度统计信息的反映。因此,列联表中的辛普森悖论实质上是一个将高维空间降到低维空间的产物[4]。事实上,这种由于降维而丢失信息在其他统计分析方法中也会发生。例如,因子分析,虽然

11、在理论上可以有无数个因子载荷矩阵,且每一个因子载荷矩阵对于一组潜在因子。但只有通过变换得出或组合出更合理、更便于解释的潜在因子时,因子分析才可以说是成功的。整个分析过程实际上是一个欧氏空间降维和坐标变换(相当于坐标轴的刚性旋转)的过程;又如,聚类分析,实际上是将分布在欧氏空间的观测数据,投影到超椭球的方差最大方向和方差次大方向所形成的二维空间的平面上,然后按该平面上投影点之间的距离来直观地划分类别(相当于对应分析)。这也是一个欧氏空间的坐标变换和降维过程。总之,列联表在“高保真”地表征分类数据信息的同时,由

12、于分类数据的非线性特征,在降维的过程中自然而然会带来“辛普森悖论”问题。“辛普森悖论”的实质是“结构性”的,是不同列联表结构维度的统计信息差异。2变换问题列联表在本质上是对称的。当社会统计分析的范围拓展到不对称的回归分析时,考虑到因变量的分类属性(categori-calnature),回归函数不可能是线性的,为此4学海无涯需要寻找一个链接函数(linkfunctions),将分类变量的期望值变换成自变量的一个线性函数。在这里,有个常见的问题,即人们常常对链接函数logit与probit的内在差异与背后假定

13、不做辨析,进而忽视这些差异与假定对于社会统计分析的参数解释所具有的重要意义。在回归模型中纳入分类变量作为自变量并不存在任何特别的难处,因为它主要涉及建立与自变量不同类别相对应的虚拟变量,所有已知回归模型的性质都可以直接推广到方差和协方差分析模型。但对于因变量是分类变量时,情况就彻底改变了,线性回归的许多知识都无法简单地加以运用。例如,对一个一二分因变量y,它的取值在[0,1]之间,一个自变量x,可以任意取值。我们

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。