欢迎来到天天文库
浏览记录
ID:7275538
大小:92.00 KB
页数:5页
时间:2018-02-10
《卡方检验及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、卡方检验及其应用一、卡方检验概述:卡方检验主要应用于计数数据的分析,对于总体的分布不作任何假设,因此它属于非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(fo)与理论次数(fe),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:这是卡方检验的原始公式,其中当fe越大,近似效果越好。显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分
2、布之间是否存在显著差异。一般用卡方检验方法进行统计检验时,要求样本容量不宜太小,理论次数≥5,否则需要进行校正。如果个别单元格的理论次数小于5,处理方法有以下四种:1、单元格合并法;2、增加样本数;3、去除样本法;4、使用校正公式。当某一期望次数小于5时,应该利用校正公式计算卡方值。公式为:二、卡方检验的统计原理:•卡方检验所检测的是样本观察次数﹙或百分比﹚与理论或总体次数﹙或百分比﹚的差异性。•理论或总体的分布状况,可用统计的期望值(理论值)来体现。•卡方的统计原理,是取观察值与期望值相比较。卡方值越大,代表统计量与理论值
3、的差异越大,一旦卡方值大于某一个临界值,即可获得显著的统计结论。三、卡方检验的主要应用:1、独立性检验第5页共5页独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。独立性检验一般采用列联表的形式记录观察数据,列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是
4、否相互关联。又可具体分为:(1)四格表的独立性检验:又称为2*2列联表的卡方检验。四格表资料的独立性检验用于进行两个率或两个构成比的比较,是列联表的一种最简单的形式。a)专用公式:若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n*(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)*(列数-1)b)应用条件:要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,即公式,当样本含量小于40时只能用确切概
5、率法计算概率。(2)、行*列表资料的独立性检验:又称为R*C列联表的卡方检验。行*列表资料的独立性检验用于多个率或多个构成比的比较。a)专用公式:r行c列表资料卡方检验的卡方值=n*[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]b)应用条件:要求每个格子中的理论频数T均大于5或16、的理论频数的计算公式为:公式中,fxi表示横行各组实际频数的总和;fyi表示纵列各组实际频数的总和;N表示样本容量的总和;例1:为了解男女在公共场所禁烟上的态度,随机调查100名男性和80名女性。男性中有58人赞成禁烟,42人不赞成;而女性中则有61人赞成,19人不赞成。那么,男女在公共场所禁烟的问题所持态度不同?赞成不赞成行总和男性fo11=58fo12=42R1=100女性fo21=62fo22=18R2=80列总和C1=120C2=60T=180解:(1)提出零假设Ho:男女对公共场所禁烟的态度没有差异。 (2)确定7、自由度为(2-1)×(2-1)=1,选择显著水平α=0.05。(3)求解男女对在公共场合抽烟的态度的期望值,这里采用所在行列的合计值的乘积除以总计值来计算每一个期望值(如在下表中:66.7=120*100/180)。赞成不赞成行总和男性fo11=58fo12=42R1=100Fe11=66.7Fe12=33.3女性fo21=62fo22=18R2=80Fe21=53.3Fe22=26.7列总和C1=120C2=60T=180拒绝零假设,即男女对公共场所禁烟的态度有显著差异。例2:某机构欲了解现在性别与收入是否有关,他们随机抽8、样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,调查结果如下表:第5页共5页性别有关无关不知道合计男1206050260女10011060240合计220170110500解:(1)零假设Ho:性别与收入无关。 (2)确定自由度为(3-1)×(2-1)=2,选择显著
6、的理论频数的计算公式为:公式中,fxi表示横行各组实际频数的总和;fyi表示纵列各组实际频数的总和;N表示样本容量的总和;例1:为了解男女在公共场所禁烟上的态度,随机调查100名男性和80名女性。男性中有58人赞成禁烟,42人不赞成;而女性中则有61人赞成,19人不赞成。那么,男女在公共场所禁烟的问题所持态度不同?赞成不赞成行总和男性fo11=58fo12=42R1=100女性fo21=62fo22=18R2=80列总和C1=120C2=60T=180解:(1)提出零假设Ho:男女对公共场所禁烟的态度没有差异。 (2)确定
7、自由度为(2-1)×(2-1)=1,选择显著水平α=0.05。(3)求解男女对在公共场合抽烟的态度的期望值,这里采用所在行列的合计值的乘积除以总计值来计算每一个期望值(如在下表中:66.7=120*100/180)。赞成不赞成行总和男性fo11=58fo12=42R1=100Fe11=66.7Fe12=33.3女性fo21=62fo22=18R2=80Fe21=53.3Fe22=26.7列总和C1=120C2=60T=180拒绝零假设,即男女对公共场所禁烟的态度有显著差异。例2:某机构欲了解现在性别与收入是否有关,他们随机抽
8、样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,调查结果如下表:第5页共5页性别有关无关不知道合计男1206050260女10011060240合计220170110500解:(1)零假设Ho:性别与收入无关。 (2)确定自由度为(3-1)×(2-1)=2,选择显著
此文档下载收益归作者所有