独立性检验的基本思想及其初步应用ppt课件 (2).ppt

独立性检验的基本思想及其初步应用ppt课件 (2).ppt

ID:50753414

大小:1.41 MB

页数:44页

时间:2020-03-13

独立性检验的基本思想及其初步应用ppt课件 (2).ppt_第1页
独立性检验的基本思想及其初步应用ppt课件 (2).ppt_第2页
独立性检验的基本思想及其初步应用ppt课件 (2).ppt_第3页
独立性检验的基本思想及其初步应用ppt课件 (2).ppt_第4页
独立性检验的基本思想及其初步应用ppt课件 (2).ppt_第5页
资源描述:

《独立性检验的基本思想及其初步应用ppt课件 (2).ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、3.2独立性检验的基本思想及其初步应用(一)1独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。2吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存

2、在差异,吸烟者患肺癌的可能性大。0.54%2.28%探究3列联表①定义:列出的两个分类变量的称为列联表.②2×2列联表一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为2×2列联表)为下表.频数表{x1,x2}{y1,y2}4一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(即2×2列联表)为:(其中n=为样本容量).y1y2合计x1aba+bx2cdc+d总计a+cb+da+b+c+da+b+c+d5不患肺癌患肺癌吸烟

3、不吸烟不患肺癌患肺癌吸烟不吸烟080007000600050004000300020001000三维柱形图二维条形图6在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上两个柱形高度的乘积相差越大,两个分类变量有关系的可能性就越大..等高条形图等高条形图与表格相比,更能直观地反映出两个分类变量间是否互相影响常用等高条形图展示列联表数据的频率特征.7不吸烟吸烟患肺癌比例不患肺癌比例等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例。8某企业为了考察同一种产品在甲、乙两条生产线的产品合格率,同

4、时各抽取100件产品,其中甲线中合格产品的个数为97,乙线中合格产品的个数为95。请做出列联表,三维柱形图与二维条形图。练习9合格不合格总计甲生产线973100乙生产线955100总计192820010111.2×2列联表是传统的调查研究中最常用的方法之一,用于研究两个变量之间相互独立还是存在某种关联性,它适用于分析两个变量之间的关系.2.在实际问题中,判断两个分类变量的关系的可靠性时,一般利用随机变量K2来确定,而不利用三维柱形图和二维条形图.12上面我们通过分析数据和图形,得到的直观印象是吸烟和

5、患肺癌有关,那么事实是否真的如此呢?这需要用统计观点来考察这个问题。现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设H0:吸烟与患肺癌没有关系.不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于P(AB)=P(A)P(B).13因此

6、ad-bc

7、越小,说明吸烟与患肺癌之间关系越弱;

8、ad-bc

9、越大,说明吸

10、烟与患肺癌之间关系越强。不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数。由于频率接近于概率,所以在H0成立的条件下应该有14为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量-----卡方统计量(1)若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:那么这个值到底能告诉我们什么呢?(2)独立性检验15

11、k大小的标准是什么呢?1617独立性检验首先,假设结论不成立,即H:两个分类变量没有关系(在这种假设下k应该很小)其次,由观测数据计算K的观测值k,(如果k很大,则在一定可信程度上说明H不成立,即两个分类变量之间有关系)最后,根据k的值判断假设是否成立2临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4450.7081.3232.0722.7063.8415.0246.6357.87910.82818这种判断可能有错误,但是犯错误的不会超过0.0

12、01,这是个小概率时间,我们有99.9%的把握认为“吸烟与患癌症有关系”19利用随机变量K2来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.20在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、若从统计量中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。