从数据到结论(人民大学吴喜之教授)03统计推断s

从数据到结论(人民大学吴喜之教授)03统计推断s

ID:21937194

大小:329.00 KB

页数:56页

时间:2018-10-21

从数据到结论(人民大学吴喜之教授)03统计推断s_第1页
从数据到结论(人民大学吴喜之教授)03统计推断s_第2页
从数据到结论(人民大学吴喜之教授)03统计推断s_第3页
从数据到结论(人民大学吴喜之教授)03统计推断s_第4页
从数据到结论(人民大学吴喜之教授)03统计推断s_第5页
资源描述:

《从数据到结论(人民大学吴喜之教授)03统计推断s》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、统计推断从数据得到对现实世界的结论的过程估计总体代表我们所关心的那部分世界。而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定)比如假定人们的身高属于正态分布族;在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。这些模型基本上是根据“经验”来假定的,仅仅是对现实世界的一个近似。估计在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。估计量是用来估计的统计量我们知道,统计量是样本的不包含未知参数的函数。样

2、本均值、样本标准差都是统计量。由于样本是随机的,统计量也是随机变量。用于估计总体参数的统计量称为估计量;样本均值和标准差都是总体均值和标准差的常用估计量。点估计和区间估计点估计(pointestimation)就是用估计量的实现值来近似相应的总体参数。区间估计(intervalestimation)是包括估计量在内(有时是以估计量为中心)的一个区间;被认为很可能包含总体参数。点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。无偏估计(大样本性质)区间估计注意置信区间的论述是由区间和置信度两部分组成。置信区间是对参数给出的一个范围置

3、信度为其可信程度(大样本意义)有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),比如“收视率为53%±3%”;不给出置信度,也不给出被调查的人数这是不负责的表现。区间估计降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。如果给出被调查的人数,则内行可以由此推算出置信度,反之亦然。一个描述性例子一个有10000个人回答的调查显示,同意某种观点的人的比例为70%(有7000人同意),可以算出总体中同意该观点的比例的95%置信区间为(0.691,0.709);另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(0.691,0.709

4、)。一个描述性例子实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。如果第二个调查仅仅调查了50个人,有35个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有11%。区间估计的意义置信度的概念大量重复抽样时的一个渐近概念。类似于“我们目前得到的置信度为95%的置信区间(比如上面的75%±3%)以概率0.95覆盖真正的比例p”的说法是错误的。实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆盖真实比例(其值可能永远未知)。区间估计的意义这里的区间(72%,78%)是固定的,而总体比例p也是固定的值。因此只有两种可能:或者该区间包含总体比例

5、,或者不包含;这当中没有任何概率可言。至于区间(72%,78%)是否覆盖真实比例,除非一个不漏地调查所有的人,否则永远也无法知道。均值m的区间估计(正态分布)总体标准差s已知总体标准差s未知区间估计的例子(1)例5.1(数据:noodle.txt,noodle.sav,noodle.sas7bdat)某厂家生产的挂面包装上写明“净含量450克”。在用天平称量了商场中的48包挂面之后,得到样本量为48的关于挂面重量(单位:克)的一个样本(我们假定,挂面重量所代表的总体分布服从正态分布。):449.5461.1457.5444.7456.1454.7441.5446.0454.9

6、446.2457.3446.1456.7451.4452.5452.4442.0452.1452.8442.9449.8452.4458.5442.7447.9450.5448.3451.4449.7446.7441.7455.6442.9451.3452.9457.2448.5444.5443.1442.3439.6446.5447.2445.8449.4441.6444.7441.4w=scan("D:/booktj1/data/noodle.txt");hist(w,10)summary(w)Min.1stQu.MedianMean3rdQu.Max.439.6444.

7、6448.9449.0452.6461.1SPSS不同样本量和不同置信度的置信区间的长短和覆盖状况例5.2(数据:height2.txt,height2.sav,height21.sav,height22.sas7bdat)这是两个地区大学生的高度数据;这里,我们假定身高服从正态分布。在height2.sav数据中这两个地区学生的高度分别用变量x1和x2表示。而在height21.sav数据中,它们为一个变量height,但用另一个变量group来标明它们属于哪个地区。区间估计的例子(2)(a)我们想要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。