欢迎来到天天文库
浏览记录
ID:57287683
大小:3.35 MB
页数:35页
时间:2020-08-09
《社会统计学(卢淑华)-第十章课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十讲列联表第一节概念1、研究内容1)研究两定类变量的关系2)为研究y的分类是否与x之分类有关,将数据先按x分类,再分别统计x分类情况下y的分类。3)按两个定类变量进行交叉分类的频次分配表,即二维列联表。4、列联表的一般形式Nij:x=xiy=yj时所具有的频次yxy1y2x1N11N12x2N21N22.........xcNc1Nc2............yrN1rN2r...Ncr学生上网调查(统计各项比例,能发现什么问题?)男生女生聊天玩游戏网恋学习2050151520501515Nij后者可以通过前者求出pN
2、Np1i1j12、列联表中变量的分布1)联合分布对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y两个变量的取值。(x1y1N11)(x2y2N12)(x1yrN1r)此称联合分布(xiyjNij)(xcyrNcr)Nij表示频次时联合频次分布表Pij表示概率时联合概率分布表ijNijcri1j1crij2)边缘分布:对联合分布进行简比,只研究其中某一变量的分布,而不管另一变量的取值,这样就得到边缘分布。按行加总y的边缘分布:PyyrP1rP2rPcrPr按列
3、加总x的边缘分布:PxxcPc1P2cPcrPc3)条件分布:将其中一个变量控制起来取固定值,再看另一变量的分布,即条件分布。控制x时,条件分布中的每一项都以边缘分布的N1*N2*Nc*为分母控制y时,条件分布中的每一项都以边缘分布的N*1N*2N*r为分母3、列联表中的相互独立性:1)列联表研究定类变量之间的关系,实际上是通过条件分布的比较进行的。如果两个变量之间没有关系,则称变量之间是相互独立的。2)如果两个变量之间是相互独立的,则必然存在变量的条件分布与其边缘分布相同。条件分布=边缘分布是列
4、联表检验的基础:(控制x时)N*jNNNi*NijNN*jNNijNi*N*1NN21N2*N11N1*PijPi*P*jninjPˆi第二节列联表的检验一、原假设:将总体中变量间无关系或相互独立作为检验的原假设。H0:pijpi*p*j总体pi*和p*j未知时,用样本pˆi和Pˆj代替。Pˆjnn22cr22ijEijni*n*jnEnp*jij统计量的讨论1、对于2×2列联表,由于格数过少,为减少作为离散观测值与作为连续型变量x值之间的偏差,可作连续性修正:2222Eij2、二
5、项总体222E1E2p0为总体成数12男女泡吧8030逛商店2070男女休闲爱好xniEixr14、使用统计量x对列联表迚行检验,每一格值的E值时nijEij值的波劢就会较大。2那么在计算3、对多项总体:~Ei2统计量:r2i12pEii0nij2要保持在一定数目乊上。如果有的格值Eij过小,2xEij每格要求:处理方法:将期望值偏小的格值合并。右例,做检验。Eij203031nij182942Eij5注意:列联表就其检验内容来看是双边检验,但从形式上看,却又很像单边检验。其判断的内容仅是变量间是否存
6、在关系。至于方向,由于列联表属定类变量,因此是不存在的。niEixEi1xr1列联表检验步骤~1、H0H1i222、统计量:r23、4、比较例:以下是老、中、青三代对某影片的抽样,能否认为三代人对该影片评价有显著差异老中青很高一般454739262122第三节列联强度一、变量间的相关1、列联表中的频次分布情况,不仅是检验是否存在关系的依据,同时也是度量变量间关系强弱的依据。相关性程度越高,说明社会现象与社会现象间的关系愈密切。2、列联表中变量间的关系的强度分析,可以将频次转化为条件分布,然后比较自变量
7、取不同值时,因变量条件分布的不同。例右表中,男生上网玩游生;想一想,当x取值大于2时,怎样比较?戏的比例高于女生;而上网聊天的比例低于女yx男生女生聊天玩游戏4067%1025%3033%3075%即:adbc二、2×2表——系数和Q系数列联表中两个变量都只有二种取值时,就是2×2表yxacbdx1x2y1y2当变量间无关系时(独立)abacbd对于2×2表,无论系数或Q系数,都以差值adbc为基础进行的讨论,同时,也把关系强度的取值范围定义在1,1之间。1、系数adbcabc
8、dacbd0——当两变量相互独立1——b、c为零,值最大1a、d为零,值最小-11——一般情况前例中计算Q2、Q系数ad-bcadbc当a、b、c、d中有一个
此文档下载收益归作者所有