简介定性资料的统计分析

简介定性资料的统计分析

ID:13852668

大小:602.00 KB

页数:18页

时间:2018-07-24

简介定性资料的统计分析_第1页
简介定性资料的统计分析_第2页
简介定性资料的统计分析_第3页
简介定性资料的统计分析_第4页
简介定性资料的统计分析_第5页
资源描述:

《简介定性资料的统计分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第十二章简介定性资料的统计分析本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。§12.1定性变量数量化前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于

2、直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。例如定性变量是性别,记为X,如此赋值:如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的

3、观察单位应取不同的值。例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值:例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1,X2,X3,X4)来表示,如此赋值:综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值:以上K个类的次序可以交换。对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值:易知,如此赋值将使X1+X2+

4、X3+X4 =1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。§12.2列联表主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。1列联表的概念列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直接进行分析并给出两个定性变量之间是否独立性检验。先

5、看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下:BA吸烟不吸烟患肺癌603未患肺癌3211研讨患肺癌是否与吸烟有关?这张统计表称为2×2列联表,表中考察两个定性变量A和B,每个变量有两类,即A分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的()取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。一般2×2列联表形式如下:BAB1B2A1n

6、11n12n1.A2n21n22n2.n.1n.2n其中表示第i行Ai和第j列Bj的样品出现的频数,一般可取任意非负整数。这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为表(r和c可以不等)有如下形式:BAB1B2…BcA1n11n12…n1cn1.A2n21n22…n2cn2.Arnr1nr2…nrcnr.n.1n.2…n.c如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随

7、机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。2×2列联表,对应一个多项分布,检验A与B是否独立,等价于检验:其中表示A为i、B为j的样品概率,和是相应的边缘概率,当独立性成立时,理论频数为:实际频数为:nij运用x2检验作判

8、定,需要知道列联表中实际频数与相应的理论频数。用估计量代替。基实际频数与理论频数有差异,这时可用其差值的大小来度量两个变量相关程度。相差愈大,表明为真的可能性愈小,即A与B无关的可能性愈小。相反差值愈小,即二愈接近,为真的可能性愈大,A与B之间相关的可能性愈小。为避免实际频数与理论频数的差值出现正负抵消,可采用差值的加权平方和来检验,于是给出皮尔逊的拟合优度x2统计量为:它的极限分布是自由度为1的分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。