欢迎来到天天文库
浏览记录
ID:52389851
大小:958.06 KB
页数:38页
时间:2020-04-05
《统计学第9章分类数据分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第9章分类数据分析PowerPoint统计学第9章分类数据分析9.1分类数据与c2统计量9.2拟合优度检验9.3列联分析:独立性检验9.4列联分析中应注意的问题学习目标1.理解分类数据与c2统计量掌握拟合优度检验及其应用掌握独立性检验及其应用掌握测度列联表中的相关性9.1分类数据与c2统计量9.1.1分类数据9.1.2c2统计量9.1.1分类数据数据的类型与列联分析数据定量数据(数值型数据)定性数据(品质数据)分类数据、顺序数据离散数据连续数据列联分析分类数据分类变量的结果表现为类别例如:性别(男,女)各类别用符号或数字代码来测度使用分类或顺序尺度你吸烟吗?1.是;2.否你赞成还是反对这一改
2、革方案?1.赞成;2.反对对分类数据的描述和分析通常使用列联表可使用检验9.1.2统计量统计量用于检验分类变量的拟合优度计算公式为作用:判断实际观察值与理论期望值是否一致。9.2拟合优度检验(一个分类变量的检验)拟合优度检验(例题分析)【例9.1】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以0.05的显著性水平检验存活状况与性别是否有关。拟合优度检验(例题分析)解:1.提出假设:H0:观察频数与期望频数一致(无关)H1:观察频数与期望频数不一致
3、(有关)2.构建统计量:拟合优度检验(例题分析)3.求临界值:自由度的计算为df=R-1R为分类变量类型的个数。在本例中,分类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1,经查分布表,0.05(1)=3.84154.决策:拒绝H05.结论:说明存活状况与性别显著相关9.3列联分析:独立性检验9.3.1列联表9.3.2独立性检验(两个分类变量的相关(独立)性检验)9.3.1列联表(contingencytable)检验在列联表中的应用(独立性检验)1.列联表的基本概念(1)列联表(Contingencytable)是由两个或两个以上定类变量进行交叉分类的频数分布表。一般
4、形式为:R×Cx1x2…xj…xcy的边缘分布y1N11N12…N1j…N1cRT1y2N21N22…N2j…N2cRT2…………………yiNi1Ni2…Nij…NicRTi……………………yrNr1Nr2…Nrj…NrcRTrx的边缘分布CT1CT2…CTi…CTcN注意:R行,C列;Nij表示的是第i行第j列的频数。(2)列联表中变量的独立性:如果变量x与变量y之间没有关系,就称其相互独立。即P(AB)=P(A)P(B)独立性检验(例题分析)【例】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。检验各地区与原料等级之间是否存在依赖
5、关系(0.05)地区一级二级三级合计甲地区526424140乙地区605952171丙地区506574189合计162188150500独立性检验(例题分析)独立性检验(例题分析)提出假设:H0:地区与原料等级之间独立H1:地区与原料等级之间不独立=0.05;df=(3-1)*(3-1)=4临界值(s):统计量:决策:在=0.05的水平上拒绝H0结论:地区和原料等级之间存在依赖关系2019.829.488=0.052.列联表独立性检验例:检验收看节目与年龄是否有关,随机抽取100人调查。老年中年青年边缘和戏曲16(5.25)7(8)2(11.75)25歌舞4(10.92)18(1
6、6.64)30(24.44)52球赛1(4.83)7(7.36)15(10.81)23边缘和213247100第一步:提出假设H0:节目与年龄无关(相互独立)H1:看节目与年龄有关(相互不独立)第二步:构建统计量利用公式:先计算期望频数分布,如上表括号中的数据第三步:求临界值:(注意:①列联表的df=(r-1)×(c-1);②按右侧检验方法)第四步:决策:第五步:结论:所以看节目与年龄有关。练习题男生女生合计赞成454287不赞成10578183合计150120270一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生调查,得
7、到的结果如下,男生女生合计赞成观察期望4548423987不赞成观察期望1051027881183合计150120270以显著性水平为0.05检验男女学生对上网收费的看法是否相同。练习题分析提出假设:H0:男女看法相同H1:男女看法不同=0.05,df=(2-1)(2-1)=1临界值:统计量:决策:在=0.05的水平上不能拒绝H0结论:可以认为男女学生对上网收费的看法是相同203.84150.6176
此文档下载收益归作者所有