资源描述:
《应用统计学第6章参数估计(置信区间).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第6章参数估计--置信区间单个总体的置信区间区间估计概念前面,我们讨论了参数点估计.它是用样本算得的一个值去估计未知参数.但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大.区间估计正好弥补了点估计的这个缺陷.我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.未知参数的真值[]“可靠程度”是用概率来度量的,称为置信概率,置信度或置信水平.习惯上把置信水平记作,这里是一个很小的正数.一、置信区间定义:满足设是一个待估参数,给定若由样本X1,X2,…Xn确定的两个统计量则称区间是的置信水平为的置信区间.分别称为置信下限和置信上限.~N
2、(0,1)选的点估计为求参数的置信水平为的置信区间.例1设X1,…Xn是取自的样本,二、置信区间的求法寻找未知参数的一个良好估计.解:寻找一个待估参数和估计量的函数,要求其分布为已知.有了分布,就可以求出Z取值于任意区间的概率.对给定的置信水平查正态分布表得对于给定的置信水平,根据Z的分布,确定一个区间,使得Z取值于该区间的概率为置信水平.使也可简记为于是所求的置信区间为从中解得:求置信区间的一般步骤(1-2):给定置信水平:1.寻找参数的一个良好的点估计T(X1,X2,…Xn)2.寻找一个待估参数和估计量T的函数J(T,),且其分布为已知.3.对于给定的置信水平,根据J(T,)的分布,确
3、定常数a,b,使得P(a≤J(T,)≤b)=4.对“a≤J(T,)≤b”作等价变形,得到如下形式:则就是的100()%的置信区间.求置信区间的一般步骤(3-4):可见,确定区间估计很关键的是要寻找一个待估参数的估计量T和函数J(T,),且J(T,)的分布为已知,不依赖于任何未知参数(这样我们才能确定一个大概率区间).而这与总体分布有关,所以,总体分布的形式是否已知,是怎样的类型,至关重要.区间估计的关键1.当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这里不加证明地叙述.几个重要的抽样分布定理定理1样本均值的分布-(σ已知)(P.111)设X1,X2,…,Xn是取自正态总体的样本
4、,则有设X1,X2,…,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有定理2样本均值的一个分布(σ未知)P.112定理3(样本方差的分布)P.114设X1,X2,…,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有定理7:设(X1,…,Xn)是总体X的一个样本,当n较大时,近似有(1)(2)2.非正态总体情况:2.非正态总体情况:总体X~B(1,p),p称为总体比例例2已知某地区新生婴儿的体重X~随机抽查n个婴儿,得n个体重数据:X1,X2,…,Xn的区间估计求和(置信水平为1-).解:这是单总体均值和方差的估计已知1.先求均值的区间估计.因方差未知,取统计量对给定的置信
5、水平使即确定分位数:均值的置信水平为的区间估计.即为从中解得取统计量从中解得2.求方差的置信水平为的区间估计.使对给定的置信水平,分位数确定于是所求置信区间为:【例2】求例1中元件寿命方差2的95%置信区间。解:由例1,S2=196.52,n=10,/2=0.025,1-/2=0.975,故所求2的置信区间为(135.22,358.82)(n-1)S2/(n-1)S2/=9196.52/19.023=9196.52/2.7=135.22=358.82需要指出的是,给定样本,给定置信水平,置信区间也不是唯一的。对同一个参数,我们可以构造许多置信区间。下面以单个总体均值μ(方差已知
6、)的置信区间估计为例来说明。~N(0,1)例如,由P(-1.96≤U≤1.96)=0.95我们得到均值的置信水平为的置信区间为我们总是希望置信区间尽可能短.类似地,我们可得到若干个不同的置信区间.任意两个数a和b,只要包含f(u)下95%的面积,就确定一个95%的置信区间.在概率密度为单峰且对称的情形,当a=-b时求得的置信区间的长度为最短.a=-b即使在概率密度不对称的情形,如分布,F分布,习惯上仍取对称的百分位点来计算未知参数的置信区间.也就是说,要想得到的区间估计可靠度高,区间长度就长,估计的精度就差.实用中应在保证足够可靠的前提下,尽量使得区间的长度短一些.一对“矛盾”我们可以得到
7、未知参数的的任何置信水平的置信区间,并且置信水平越高,相应的置信区间平均长度越长.~N(0,1)例如,由P(-1.96≤U≤1.96)=0.95我们得到均值的置信水平为的置信区间为考虑单个正态总体μ的置信区间:当σ已知时,置信度与置信区间长度的关系由P(-2.33≤Z≤2.33)=0.99这个区间比前面一个要长一些.置信区间为我们得到均值的置信水平为的也就是说,要想得到的区间估计可靠度高,区间长度就长,估计的精度就差.这