欢迎来到天天文库
浏览记录
ID:50333884
大小:1.64 MB
页数:32页
时间:2020-03-12
《选修1-2:1.2独立性检验的基本思想及其初步应用收藏.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、1.上节学习了回归分析的基本方法.线性回归模型y=bx+a+e不同于一次函数y=bx+a,含有__________,其中x为_________,y为__________.温故夯基随机误差e解释变量预报变量样本点的中心残差平方和1.2独立性检验的基本思想及初步应用1、两个相关的概念对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别。(1)分类变量:定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义。(2)定量变量:
2、例如身高、体重、考试成绩等,张明的身高是180cm,李立的身高是175cm,说明张明比李立高180-175=5(cm)。独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量的之间是否有关系独立性检验独立性检验吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965问题:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%
3、与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况。1)通过图形直观判断两个分类变量是否相关:三维柱状图2)通过图形直观判断两个分类变量是否相关:二维条形图3)通过图形直观判断两个分类变量是否相关:患肺癌比例不患肺癌比例等高条形图独立性检验H0:吸烟和患肺癌之间没有关系←→H1:吸烟和患肺癌之间有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何?吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d不患肺癌患肺癌
4、总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d吸烟与患肺癌的列联表:如果“吸烟与患肺癌没有关系”,则在吸烟者中不患肺癌的比例应该与6中相应的比例应差不多,即
5、ad-bc
6、越小,说明吸烟与患肺癌之间关系越弱;
7、ad-bc
8、越大,说明吸烟与患肺癌之间关系越强.引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准。0.500.400.250.150.100.4550.7081.3232.0722.7060.050.0250.0100.0050.0013.8415.0246.6357.87910.8280.050.0250.0100.0050.0013.84
9、15.0246.6357.87910.8280.500.400.250.150.100.4550.7081.3232.0722.706独立性检验吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965通过公式计算在H0成立的情况下,统计学家估算出如下的概率:也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值超过6.635的频率约为0.01,是一个小概率事件.现在K2的观测值为56.632,远远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有
10、99%的把握认为“吸烟与患肺癌有关系”.利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.独立性检验:如果,就判断H0不成立;否则,就判断H0成立.即在成立的情况下,K2大于6.635概率非常小,近似为0.01独立性检验的基本思想:(类似于数学上的反证法,对“两个分类变量有关系”这一结论成立可信程度的判断):(1)假设该结论不成立,即假设结论“两个分类变量没有关系”成立.(2)在假设条件下,计算构造的随机变量K2,如果由观测数据计算得到的K2很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过(2)式评价假设不合
11、理的程度,由实际计算出的k>6.635,说明假设不合理的程度约为99%,即“两个分类有关系”这一结论成立的可信程度约为99%.利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度.具体作法是:(1)根据实际问题需要的可信程度确定临界值k0;(2)由观测数据计算得到随机变量K2的观测值k;(3)如果k>6.635,就以1-P(K2≥6.635)×100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据
此文档下载收益归作者所有