8.3.1 分类变量与列联表 课件【共18张PPT】

8.3.1 分类变量与列联表 课件【共18张PPT】

ID:82425828

大小:1.36 MB

页数:18页

时间:2022-10-24

8.3.1 分类变量与列联表  课件【共18张PPT】_第1页
8.3.1 分类变量与列联表  课件【共18张PPT】_第2页
8.3.1 分类变量与列联表  课件【共18张PPT】_第3页
8.3.1 分类变量与列联表  课件【共18张PPT】_第4页
8.3.1 分类变量与列联表  课件【共18张PPT】_第5页
8.3.1 分类变量与列联表  课件【共18张PPT】_第6页
8.3.1 分类变量与列联表  课件【共18张PPT】_第7页
8.3.1 分类变量与列联表  课件【共18张PPT】_第8页
8.3.1 分类变量与列联表  课件【共18张PPT】_第9页
8.3.1 分类变量与列联表  课件【共18张PPT】_第10页
资源描述:

《8.3.1 分类变量与列联表 课件【共18张PPT】》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、8.3列联表与独立性检验8.3.1分类变量与列联表回顾旧知2.残差平方和:3.最小二乘法将称为Y关于x的经验回归方程,4.判断模型拟合的效果:残差分析R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型y=bx+a+e含有随机误差e,其中x为解释变量,y响应变量残差:yi-是随机误差的估计值前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题

2、.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.新课引入如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计

3、问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法,我们先看下面的具体问题。问题1.为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?新课引入这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设=,=那么,只要求出f0和f1的值,通过比较

4、这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到=≈0.633,=.由f1-f00.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼.新课引入用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令,,我们希望通过比较条件概率P(Y=1X=0)和P(Y=1X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经

5、常锻炼群体的概率是P(Y=1X=0),而该男生属于经常锻炼群体的概率是P(Y=1X=1).“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1X=0)=P(Y=1X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1X=0)≠P(Y=1X=1).为了清楚起见,我们用表格整理数据学习新知我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有由P(Y=1X=1)>P(Y=1X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面

6、存在差异,而且男生更经常锻炼。P(Y=1X=0)==≈0.633P(Y=1X=1)==≈0.787在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingencytable).2×2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;

7、右下角格中的数是样本空间中样本点的总数。在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。