欢迎来到天天文库
浏览记录
ID:22519577
大小:196.77 KB
页数:7页
时间:2018-10-29
《张文彤-spss-第12节-卡方分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、卡方检验•-两个定性变U:之间的关系成组的x2检验是用途很广的一种假设检验方法,主要用于分类资料统计推断,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等它最基本的无效假设是:H0:观察频数与期望频数没有差别其原理为考察基于H0的理论频数分布和实际频数分布间的差异大小,据此求出相应的P值。例在CCSS的分析报告屮,所有受访家庭会按照家庭年收入被分为低收入家庭和屮岛收入家庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同。方法原理Trc理论频数基于HO成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来在该例中,我们做出描述统计分
2、析,发现低收入家庭屮335户屮有32户拥有轿车,所占比为9.6%;高收入家庭中654户中有255户拥有轿车所占比为34.5%。那么问题来了,这种差距是抽样误差造成的呢?还是这两群体所拥有的轿车确是不一样的?为了解决这一问题,我们通过卡方检验來验证。H0:造成两个群体轿车拥有率的不同是抽样误差(观察频数与期望频数没有差异)首先,先假设H0成立一一然后检验相应的“单元格”的频数方法原理残差没A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差残差可以表示某一个类别观察值和理论伉的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示
3、样本总的偏离无效假设的程度另一方面,残差大小是一个相对的概念,相对于期望频数力10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:y2(^-£)乂EE:女(八-np)2i=i"A(i=l,2,3,…k)方法原理从卡方的计算公式可见,当观察频数与期望频数完全一致吋,卡方值为0;观察频数与期望频数越按近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和
4、自巾度有关卡方分布chi-squareSpss中的操作操作:分析一一描述性统计一一交叉表一一(将分类变量选入行,将因变量选入列。在单元格屮选择“观察值、期望值、残差屮的为标准化”:在统计量屮选择卡方)表格解读:*交叉表格个本姑塊俩要个窠有效总计«字:tt字•i家確收人2级*01.有家用轿¥98986.2%15813.8%1147100.0%家庇收人2级•01.焐否湘/丫家用交叉我01.L:::•总计有没有孓好收人2级Below48.000计败32303335ffl期计tt87.1247.9335.0-55.155.1Over48,000计败225429654預期计教169.9484.165
5、4.0残差55.1-55.1总计计教257732989r257.0732.0989.0第二张表格,低收入组屮轿车拥有的期望值为87.1(与实际存在差异),髙收入组中轿车拥有的期望值为169.9(与实际存在差异)期望值怎么来?低收入家庭的轿车拥有期望值=低收入家庭总数x总的轿车拥有率(实际值或叫观察值=32,期望值=87.1)同理低收入家庭的轿车拥有期望值=高收入家庭总数x总的轿车拥有率期望值一实际值=残差(残差可表示一个类别观察值和理论值得偏离程度)卡方检验供自由KI!,•…(双向)(单向)皮衣逊k171.134*1.000it餓正b69.8481.000W然比(L)80.1461.000
6、FisherMMtfttt.000.000汝1关联71.0621.000GA个案tt989a0:•»•;(0.0%)UO:'棚期计败少于5•»小測H什教为87.05b.仗为2x2表格计算(个人收获:当只是知道描述统计吋我们不能轻易下结论,要通过推断统计来得山结论也就是说,当只看到表明现象时不要轻易下结论,下结论要有根据,科学研宄的严谨在此体现)输出结果分析第1行:Pearson卡方卡方伉为71.134'自巾度为l,p值为0.000巾卡方检验表的p值推断,拒绝H0接受H1,认为在两类家庭中轿车拥有率是存在显著差异,又由描述统计得出,高收入家庭的轿车拥有率更高。第2行:连续校正四格表卡方值的校
7、正上图中上标a:0个单元格(0.00%)具有的预期计数少于5,最小预期计数为87.05对上标a的解读:此为卡方检验的适用条件分析。统计学家Yates认为,卡方分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的卡方值英国的抽样分布也应当是不连续的,当样本S较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)需要校正的条件若n>40,此时有1
此文档下载收益归作者所有