统计学概念和方法-第6章

统计学概念和方法-第6章

ID:5649948

大小:156.00 KB

页数:17页

时间:2017-11-13

统计学概念和方法-第6章_第1页
统计学概念和方法-第6章_第2页
统计学概念和方法-第6章_第3页
统计学概念和方法-第6章_第4页
统计学概念和方法-第6章_第5页
资源描述:

《统计学概念和方法-第6章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章做出结论:估计数学与信息科学学院王坤TEL:13987460215fellowang@163.com统计学概念和方法总体是由总体分布来刻画的。在实际问题中,我们需要通过样本来估计总体分布的类型和参数。这就是所谓统计推断研究的问题。统计推断包括参数估计和假设检验。例如,假设某城市人均年收入服从正态分布N(μ,σ2),但参数μ,σ2的具体取值并不知道,需要通过样本来估计。根据样本来估计总体分布所包含的未知参数,称为参数估计。参数估计的两种形式:点估计和区间估计。统计推断6.1样本统计量和总体参数在统计中,我们把所研究对象的全体元素组成的集合称为母体或总体。母体中每

2、一个元素称为个体。总体依其包含的个体总数分为有限总体和无限总体。总体中抽取出来的一部分个体的集合称为子样或者样本。统计量就是根据分布或数据计算出来的一个量。常用的样本统计量是样本均值、样本百分比P和样本标准差s。通常用英文字母标记样本统计量。总体参数通常包括总体均值μ、总体百分比Π和总体标准差σ。通常用希腊字母标记总体样本量。6.2点估计点估计是一个用来估计总体参数的数。例如假设你要研究平均一个大学生月消费情况,得到的结果有以下两种:“700元”或者“620元到800元之间”。这两种结果代表了估计总体参数的两种不同方式。最简单的是点估计,像“700元”这个结果就是一

3、个点估计了。“620元到800元之间”是一个区间估计。常用的点估计方法有矩估计、极大似然估计等。由于一个来自样本的特别的估计量绝不会精确地等于总体参数的真值,所以问某一个值是否为好的估计值是没有意义的,而可以问的是计算估计值的方法是不是一个好方法。一个好的估计方法可以这样被定义:如果在无数个样本上应用该估计方法,得到的样本统计量估计值的均值等于总体参数的均值(无偏估计)。一般说来,样本均值是总体均值的一个好的估计(无偏估计),比用样本中位数估计总体均值要好。例德军有多少坦克?第二次世界大战期间,盟军非常想知道德军总共制造了多少辆坦克。德军制造坦克时是墨守成规的,他们

4、把坦克从1开始进行了连续的编号。战争中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么,怎样用这些坦克编号来估计坦克总数呢?这里,总体参数是未知的生产出的坦克总数N,而缴获的坦克编号是样本。方法1:先找到被缴获坦克编号的平均值,并认为这个值是全部编号的重点。因此样本均值乘以2就是总数的一个估计。这种估计N的缺点是不能保证均值的2倍一定大于记录中的最大编号。方法2:用观测到的最大编号乘以因子1+1/n,其中n是被缴获坦克个数。例如,假设俘获了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)×50=55。这种方法的确用于二战中。从战后发现的

5、德军记录看,盟军的估计值非常接近所生产的坦克的真实值。想一想,这个例子中,对战争、坦克的部署及俘获作了哪些假设?这些坦克必须随机地分布于各个战场并随机地被俘获。6.3区间估计由于无法把握点估计与总体参数实际值之间的差距,为了解决这个问题,统计学家提出了区间估计。区间估计又称置信区间,是用来估计参数的取值范围的。一个总体参数的置信区间是用一个样本统计量加、减抽样误差得到的:统计量-抽样误差到统计量+抽样误差例如假设在一群人中,相信中国产品质量好的人占58%,抽样误差为±3%。则总体百分点的置信区间为:58-3到58+3如果在一次大选中某人的支持率为55%,而置信水平0

6、.95上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之五。因为统计学家有某种程度的信心认为这个区间会包含真正的固定的参数值,所以给它取名为置信区间。如果我们收集了许多不同的样本,并对每个样本都构造了一个置信区间。这些置信区间有足够的宽度使他们中的95%包含了总体百分点的真值,而5%没包含,则95%这个值就称为置信水平。如果用某种方法构造的所有区间中有95%的区间包含真值,5%的区间不包含真值,那么这些用该方法构造的区间都叫做置信水平为95%的置信区间。置信区间,它由奈

7、曼(Neymann)于1934年提出的。总体百分比的置信区间从一个大的总体抽取一个由n个观测值组成的随机样本,并用P来标记样本百分比,那么总体百分比π的一个95%置信区间为:到一个快速计算95%置信区间的近似方法是令P=50,同时四舍五入1.96到2,得到置信区间:到如果要把误差控制在3左右,那么要求样本含有1111个观测值。这就是为什么大多数问卷调查中样本要求1200个响应者的原因。总体均值μ的置信区间由n个独立的、服从正态分布的观测组成的一个样本,样本均值记为,样本标准差记为s。则总体均值的置信区间为:这里t*=t(1-a)/2是t变量的一个值,a为置信水平

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。