资源描述:
《统计学贾俊平专题培训课件》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
统计学贾俊平
1第6章统计量及其抽样分布本章将较系统地介绍统计量的概念,以正态分布为基础导出常用的几个重要分布,并给出一些常用统计量的抽样分布。
26.1统计量6.2关于分布的几个概念6.3由正态分布导出的几个重要分布6.4样本均值的分布与中心极限定理6.5样本比例的分布6.6两个样本均值之差的分布6.7关于样本方差的分布第6章统计量及其抽样分布
36.1统计量
46.1统计量统计量是样本的函数,它不依赖于任何未知参数;根据不同的研究目的,可构造不同的统计量;利用构造的统计量,用样本性质推断总体的性质;统计量是统计推断的基础,在统计学中占据着非常重要的地位。6.1.1统计量的概念
5定义6.1设X1,X2,…Xn是从总体中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…Xn),不依赖于任何未知参数,则称函数T(X1,X2,…Xn)是一个统计量。对于T(X1,X2,…Xn),也称样本统计量。当获得样本的一组具体观测值x1,x2,…xn时,代入T,就是一个具体的统计量值T(x1,x2,…xn)。6.1统计量
66.1统计量
76.1统计量6.2.2常用统计量(当n充分大时)
86.1.3次序统计量定义6.2设(X1,X2,…Xn)是从总体X中抽取的一个样本,X(i)称为第i个次序统计量,它是样本(X1,X2,…Xn)满足如下条件的函数:每当样本得到一组观测值x1,x2,…,xn时,其由小到大的排序x(1)≤x(2)≤…≤x(i)≤…≤x(n)中,第i个值x(i)就作为次序统计量X(i)的观测值,X(1),X(2)…X(n)称为次序统计量。其中X(1)和X(n)分别为最小和最大次序统计量。R(n)=X(n)-X(1)称为样本极差中位数、分位数、四分位数都是次序统计量。
96.1.4充分统计量在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,则对以后的统计推断质量具有重要意义。在统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。因子分解定理是判别充分统计量的方法,由奈曼和哈尔姆斯在20世纪40年代提出的。
10【例6.2】某电子元件厂欲了解其产品的不合格率p,质检员抽检了100个电子元件,检查结果是,除了前3个是不合格品(记为X1=1,X2=1,X3=1)外,其他都是合格品(记为Xi=0,i=4,5,…,100)。当企业领导问及抽检结果时,质检员给出如下回答:(1)抽检的100个元件中有3个不合格;(2)抽检的100个元件中前3个不合格;充分统计量(算例)在产品检验中,二项分布的统计量是不合格品率p的充分统计量。
116.2关于分布的几个概念
126.2关于分布的几个概念6.2.1抽样分布近代统计学的创始人之一,英国统计学家费希尔曾把抽样分布、参数估计和假设检验看作统计推断的三个中心内容。定义:在总体X的分布类型已知时,若对任一自然数n,都能导出统计量T(X1,X2,…,Xn)的分布的数学表达式,这种分布称为精确的抽样分布。精确的抽样分布大多是在正态总体的情况下得到的。在正态总体条件下主要有分布、t分布和F分布,常称为统计的三大分布。
13当n无限增大时,统计量T(X1,X2,…Xn)的极限分布常称为统计量的渐近分布;第4节中的中心极限定理揭示的就是样本均值的渐近分布;不少重要的统计方法就是基于渐近分布提出的。6.2.2渐近分布
146.2.3随机模拟获得的近似分布1.背景2.思想设有一个统计量T(X1,X2,…Xn),其中n为样本容量,求统计量T的分布函数F(n)(t);可连续作一系列类似试验,每次试验都是从总体中抽取容量为n的样本,然后计算其统计量的值;当这种试验进行了N次时,就得到统计量T的N个观测值:T1,T2,…,TN;根据这N个观测值可做其经验分布函数FN(n)(t)的一个很好的近似。
156.3由正态分布得到的几个重要分布
166.3由正态分布得到的几个重要分布6.3.1分布定义6.3设随机变量X1,X2,…Xn相互独立,且Xi(i=1,2,…,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的分布。不同容量样本的卡方分布c2n=1n=4n=10n=20当自由度增加时,卡方分布的概率密度曲线趋于对称。当n趋于无穷大时,卡方分布的极限分布就是正态分布。
17
18定义6.4设随机变量X~N(0,1),Y~,且X与Y独立,则其分布称为t分布,记为t(n),其中n为自由度。(6.2)6.3.2t分布
19当n充分大时,其图形类似于标准正态变量概率密度的图形.
201.设X1,X2,…Xn是来自正态分布N(μ,σ2)的一个样本,则~t(n-1)(6.3)称为服从自由度为(n-1)的t分布。
21证明:因为Xi服从正态分布,所以也服从正态分布
222.设X和Y是两个相互独立的总体,X~N(μ1,σ2),Y~N(μ2,σ2),X1,X2,…,Xn是来自X的样本,Y1,Y2,…,Ym是来自Y的样本,记(6.4)
23证明:
246.3.3F分布定义6.5设随机变量Y与Z相互独立,且Y与Z分别服从自由度为m和n的分布则称(6.5)X服从第一自由度为m,第二自由度为n的F分布,记为F(m,n),简记为X~F(m,n)。
25
26
27样本均值的抽样分布(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下:总体的均值和方差:
28现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)
29计算出各样本的均值,如下表。3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)
30所有样本均值的均值和方差式中:M为样本数目结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n
316.4样本均值的分布与中心极限定理设X1,X2,…Xn为从某一总体中抽出的随机样本,若总体分布为正态分布N(μ,σ2),那么的抽样分布仍为正态分布,的数学期望为μ,方差为σ2/n,则(6.9)的抽样分布有以下特点:期望值与总体相同,而方差则缩小为总体方差的1/n。=50=10X正态总体分布n=4抽样分布Xn=16
32对于均值为μ,方差为σ2的任意总体分布,当n比较大时,且σ2有限,总有(6.10)(6.11)
33中心极限定理:设从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体X
34最早的中心极限定理是在18世纪初由德莫佛所证明的,即二项分布以正态分布为其极限分布定理。现在的中心极限定理是19世纪20年代林德伯格和勒维证明的在任意分布的总体中抽取样本,其样本均值极限分布为正态分布。
35【例6.4】设从一个均值μ=10、标准差σ=0.6的总体中随机选取容量为n=36的样本。假定该总体不是很偏的,要求:(1)计算样本均值小于9.9的近似概率。(2)计算样本均值超过9.9的近似概率。(3)计算样本均值在总体均值μ=10附近0.1范围内的近似概率。解:根据中心极限定理,不论总体的分布是什么形状,在假定总体分布不是很偏的情况下,当从总体中随机抽取n=36的样本时,样本的均值的分布近似服从均值为10、标准差为0.1的正态分布。
36
37【例6.5】某汽车电瓶商声称其生产的电瓶具有均值为60个月,标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行试验。(1)假定厂商声称是正确的,试描述50个电瓶的平均寿命的抽样分布。(2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过57个月的概率为多少?解:(1)根据中心极限定理知,这50个电瓶的平均寿命近似服从正态分布。其均值为μ=60,方差为
38(2)如果厂商声称是正确的,则观察到50个电瓶的平均寿命不超过57个月的概率为:即如果厂商说法正确,则50个电瓶的平均寿命不超过57个月的概率为0.0002。
396.5样本比例的抽样分布
406.5样本比例的抽样分布假定总体中对具有某一特征产品的喜好比例为π,在此条件下研究当从总体中随机抽取n个个体进行调查时,喜好某一产品的人数X的概率。喜好某产品的比例(6.12)用样本比例来估计总体比例π。
41由二项分布的原理和渐近分布的理论可知,当n充分大时,的分布可用正态分布逼近。此时服从均值为π、方差为的正态分布。(6.13)
42【例6.7】假定某统计人员在其填写的报表中有2%至少会有一处错误,如果我们检查了一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在0.025~0.070之间的概率有多大?解:设600份报表中至少有一处错误的报表所占的比例为,由题意知即p∽N(0.02,0.00572)
43即该统计人员所填写的报表中至少有一处错误的报表所占的比例在0.025~0.070之间的概率为19.02%。所求概率为:
446.6两个样本平均值之差的分布
456.6两个样本平均值之差的分布定义:设是独立地抽自总体X1~N(μ1,)的一个容量为n1的样本的均值,是独立地抽自总体X2~N(μ2,)的一个容量为n2的样本的均值,则有不管两个总体是否为正态分布,只要,则均值之差也为正态分布,其均值和方差分别是式(6.14)和式(6.15)。(6.15)(6.14)
46两个样本比例之差的抽样分布设分别从具有参数为π1和π2的二项总体中抽取包含n1和n2个观测值的独立样本,则两个样本比例差的抽样分布为:期望值和方差为:(6.16)(6.17)
47当n1,n2很大时,的抽样分布近似为正态分布:
48【例6.9】一项抽样调查表明甲城市的消费者中有15%的人喝过商标为“圣洁”牌的矿泉水,而乙城市的消费者中有8%的人喝过该种矿泉水。如果这些数据是真实的,那么当我们分别从甲城市抽取120,乙城市抽取140人,组成两个独立随机样本时,样本比例差不低于0.08的概率有多大?解:根据题意,π1=0.15,π2=0.08,n1=120,n2=140,的抽样分布近似服从正态分布,即
496.7关于样本方差的分布
506.7关于样本方差的分布6.7.1样本方差的分布设X1,X2,…Xn为来自正态总体分布N(μ,σ2)的样本,则样本方差S2的分布为:(6.18)其中,将称为自由度为n-1的卡方分布。
51设X1,X2,…,Xn是来自正态总体X~N(μ1,σ12)的样本,Y1,Y2,…,Ym是来自正态总体Y~N(μ2,σ22)的样本,且X和Y相互独立,则(6.19)F(n-1,m-1)是第1自由度为n-1,第2自由度为m-1的F分布。6.7.2两个样本方差比的分布
52得得由由所以