数理统计讲义

数理统计讲义

ID:82869902

大小:7.35 MB

页数:65页

时间:2023-09-24

上传者:L.M
数理统计讲义_第1页
数理统计讲义_第2页
数理统计讲义_第3页
数理统计讲义_第4页
数理统计讲义_第5页
数理统计讲义_第6页
数理统计讲义_第7页
数理统计讲义_第8页
数理统计讲义_第9页
数理统计讲义_第10页
资源描述:

《数理统计讲义》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

数理统计《数理统计》教案65

1数理统计第一章统计量及其抽样分布第一节 总体与样本教学目的:要求学生理解数理统计的两个基本概念:总体和样本,以及与这两个基本概念相关的统计基本思想和样本分布。教学重点:掌握数理统计的基本概念和基本思想.教学难点:掌握数理统计的基本概念和基本思想.一、总体与个体  在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体。对多数实际问题。总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每个学生有许多特征:性别、年龄、身高、体重、民族、籍贯等。而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不予以考虑。这样,每个学生(个体)所具有的数量指标值——身高就是个体,而将所有身高全体看成总体。这样一来,若抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现的机会多,有的出现的机会少,因此用一个概率分布去描述和归纳总体是恰当的。从这个意义上看,总体就是一个分布,而其数量指标就是服从这个分布的随机变量。以后说“从总体中抽样”与“从某分布中抽样”是同一个意思。  例1.考察某厂的产品质量,将其产品只分为合格品与不合格品,并以0记合格品,以1记不合格品,则65

2数理统计  总体={该厂生产的全部合格品与不合格品}={由0或1组成的一堆数}。  若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:    不同的p反映了总体间的差异。例如,两个生产同类产品的工厂的产品总体分布为:      我们可以看到,第一个工厂的产品质量优于第二个工厂。  实际中,分布中的不合格品率是未知的,如何对之进行估计是统计学要研究的问题。二、样本  为了了解总体的分布,我们从总体中随机地抽取n个个体,记其指标值为x1,x2,…,xn,则x1,x2,…,xn称为总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品。  我们首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,…,Xn表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。此时用小写字母x1,x2,…,xn表示是恰当的。简单起见,无论是样本还是其观测值,本书中样本一般均用x1,x2,…,xn表示,读者应能从上下文中加以区别。  例2.啤酒厂生产的瓶装啤酒规定净含量为640g65

3数理统计,,由于随机性,事实上不可能使得所有的啤酒净含量均为640g,现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:  641  635  640  637  642  638  645  643  639  640  这是一个容量为10的样本的观测值。对应的总体为该厂生产的瓶装啤酒的净含量。  从总体中抽取样本时,为使样本具有代表性,抽样必须是随机抽样。通常可以用随机数表来实现随机抽样。还要求抽样必须是独立的,即每次的结果互不影响。在概率论中,在有限总体(只有有限个个体的总体)中进行有放回抽样,是独立的随机抽样;然而,若为不放回抽样,则是不独立的抽样。但  当总体容量N很大但样本容量n较小时,不放回抽样可以近似地看做放回抽样,即可近似看做独立随机抽样。  下面,我们假定抽样方式总满足独立随机抽样的条件。  从总体中抽取样本可以有不同的抽法,为了能由样本对总体做出较可靠的推断,就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的“简单随机抽样”有如下两个要求:  (1)样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。  (2)样本要有独立性,即要求样本中每一样品的取值不影响其他样品的取值,这意味着x1,x2,…,xn相互独立。  用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。除非特别指明,本书中的样本皆为简单随机样本。  于是,样本x1,x2,…,xn可以看成是相互独立的具有同一分布的随机变量,其共同分布即为总体分布。  设总体X具有分布函数F(x),x1,x2,…,xn为取自该总体的容量为n的样本,则样本联合分布函数为:    若总体具有密度函数f(x),则样本的联合密度函数为65

4数理统计    若总体X为离散型随机变量,则样本的(联合)概率函数为  显然,通常说的样本分布是指多维随机变量(x1,x2,…,xn)的联合分布。  例3.为估计一物件的重量μ,用一架天平重复测量n次,得样本x1,x2,…,xn,由于是独立重复测量,x1,x2,…,xn是简单随机样本。总体的分布即x1的分布(x1,x2,…,xn分布相同)。由于称量误差是均值(期望)为零的正态变量,所以x1可认为服从正态分布N(μ,σ2)(X1等于物件重量μ)加上称量误差,即x1的概率密度为    这样,样本分布密度为  。    例4.设某种电灯泡的寿命X服从指数分布E(λ),其概率密度为:    则来自这一总体的简单随机样本x1,x2,…,xn的样本分布密度为    例5.考虑电话交换台一小时内的呼唤次数X。求来自这一总体的简单随机样本x1,x2,…,xn的样本分布。   解 由概率论知识,X服从泊松分布P(λ),其概率函数  ,65

5数理统计  (其中x是非负整数{0,1,2,…,k,…}中的一个)。从而,简单随机样本x1,x2,…,xn的样本分布为:          第二节统计量及其分布教学目的:要求学生理解数理统计的基本概念:统计量,熟练掌握样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的计算公式,掌握次序统计量及其抽样分布。能用R软件来计算这些常用统计量,能用R软件来产生分布的随机数以进行随机模拟。教学重点:样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的求法;次序统计量的抽样分布。教学难点:次序统计量的抽样分布。一、统计量与抽样分布  样本来自总体,样本的观测值中含有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章。为将这些分散在样本中有关总体的信息集中起来以反映总体的各种特征,需要对样本进行加工。最常用的加工方法是构造样本的函数,不同的函数反映总体的不同特征。  定义1.设x1,x2,…,xn为取自某总体的样本,若样本函数T=T(x1,x2,…,xn)中不含有任何未知参数,则称T为统计量。统计量的分布称为抽样分布。  按照这一定义,若x1,x2,…,xn为样本,则,都是统计量,而当μ,σ265

6数理统计未知时,,等均不是统计量。二、样本均值及其抽样分布  定义2.设x1,x2,…,xn为取自某总体的样本,其算术平均值称为样本均值,一般用  表示,即。  例6.某单位收集到20名青年人某月的娱乐支出费用数据:  79  84 84 88 92 93 94 97 98 99  100 101 101 102 102108 110 113 118 125  则该月这20名青年的平均娱乐支出为    对于样本均值的抽样分布,我们有下面的定理。  定理1.设x1,x2,…,xn是来自某个总体X的样本,为样本均值。  (1)若总体分布为N(μ,σ2),则的精确分布为;  (2)若总体X分布未知(或不是正态分布),且E(X)=μ,D(X)=σ2,则当样本容量n较大时,的渐近分布为,这里的渐近分布是指n较大时的近似分布。  证明 (1)由于为独立正态变量线性组合,故仍服从正态分布。另外,      故    (2)易知为独立、同分布的随机变量之和,且  65

7数理统计。  由中心极限定理,  ,  其中Φ(x)为标准正态分布。这表明n较大时的渐近分布为。三、样本方差与样本标准差 定义3.设x1,x2,…,xn为取自某总体的样本,则它关于样本均值的平均偏差平方和称为样本方差,其算术根称为样本标准差。相对样本方差而言,样本标准差通常更有实际意义,因为它与样本均值具有相同的度量单位。  在上面定义中,n为样本容量,称为偏差平方和,  它有3个不同的表达式:    事实上,         ,  偏差平方和的这3个表达式都可用来计算样本方差。  例7.在例6中,我们已经算得,其样本方差与样本标准差为  ,  。  方法二   ∴s=11.5731  通常用第二种方法计算s2方便许多。65

8数理统计  下面的定理给出样本均值的数学期望和方差以及样本方差的数学期望,它不依赖于总体的分布形式。这些结果在后面的讨论中是有用的。 定理2.设总体X具有二阶矩,即  E(x)=μ,D(X)=σ2<+∞  x1,x2,…,xn为从该总体得到的样本,和s2分别是样本均值和样本方差,则      此定理表明,样本均值的均值与总体均值相同,而样本均值的方差是总体方差的。  证明 由于  (1)  (2)  且有:    ,而  ,  于是  ,  两边各除以n-1,即得证。  值得读者注意的是:本定理的结论与总体服从什么分布无关。四、样本矩及其函数  样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。 定义4.设x1,x2,…,xn是样本,则统计量65

9数理统计  称为样本k阶原点矩,特别地,样本一阶原点矩就是样本均值。统计量  称为样本k阶中心矩。常见的是k=2的场合,此时称为二阶样本中心矩。本书中我们将其记为sn2,以区别样本方差S2。五、极大顺序统计量和极小顺序统计量 定义5.设总体X具有分布函数F(x),分布密度f(x),x1,x2,…,xn为其样本,我们分别称  X(1)=min{x1,x2,…xn},x(n)=max{x1,x2,…xn}为极小顺序统计量和极大顺序统计量。  定理3.若x(1),x(n)分别为极小、极大顺序统计量,则  (1)x(1)的分布函数F1(x)=1-(1-F(x))n,x(1)的分布密度f1(x)=n-(1-F(x))n-1f(x)  (2)x(n)的分布函数Fn(x)=[F(x)]n,x(n)的分布密度fn(x)=n[F(x)]n-1f(x)  证明先求出x(1)及x(n)的分布函数F1(x)及Fn(x):    ,  ,  分别对F1(x),Fn(x)求导即得      六、正态总体的抽样分布  有很多统计推断是基于正态总体的假设的,以标准正态变量为基石而构造的三个著名统计量(其抽样分布分别为x2分布,t分布和F65

10数理统计分布)在实践中有着广泛的应用。这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有“明确的表达式”,它们被称为统计中的“三大抽样分布”。  1.x2分布(卡方分布) 定义6.设X1,X2,…,Xn独立同分布于标准正态分布N(0,1),  则x2=x12+…xn2的分布称为自由度为n的x2分布,记为x2~x2(n)。x2(n)分布的密度函数见图1-4当随机变量x2~x2(n)时,对给定的α(0<α<1),称满足p{x2>xα2(n)}=α的xα2(n)}是自由度为n的开方分布的α分位数。分位数xα2(n)}可以从附表4中查到。例如n=10,α=0.05,那么从附表4中查得x2(10)=18.307p(x)2>x20.05(10)=p{x2>18.307=0.05注:请读者注意x2~x2(n)时,n是自由度,不是容量。2.F分布定义7.设x1~x2(m),x2~x2(n)X1与X2独立,则称的分布是自由度  为m与n的F分布,记为F~F(m,n),其中m称为分子自由度,n称为分母自由度。  自由度为m与n的F分布的密度函数的图像是一个只取非负值的偏态分布(见图6-5)。65

11数理统计当随机变量F~F(m,n)时,对给定的α(0<α<1),称满足P{F>Fα}(m,n)=α的数Fα(m,n)是自由度为m与n的F分布的α分位数。  当F~F(m,n)时,有下面性质(不证)  ,  这说明    对小的α,分位为Fα(m,n)可以从附表5中查到,而分位数F1-α(m,n)则可通过上式得到。  例8.若取m=10,则n=5,α=0.05,那么从附表5上(m=n1,n=n2)查得  F0.05(10,5)=4.74  利用(6.3.8)式可得到  3.t分布 定义8.设随机变量与X1与X2独立且X1~N(0,1),X2~X2(n),则称的分布为自由度为n的t的分布,记为t~t(n).  t分布密度函数的图像是一个关于纵轴对称的分布(如下图65

12数理统计),与标准正态分布的密度函数形态类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布的大一些。  t分布与N(0,1)的密度函数当随机变量t~t(n)时,称满足P{t>tα(n)}=α的tα(n)是自由度为n的t分布的α分位数,分位数tα(n)可以从附表3中查到,例如当n=10,α=0.05时,从附表3上查得  t0.05(10)=1.8125  由于t分布的密度函数关于0对称,故其分位数有如下关系:  t1-α(n)=-tα(n)  例如,  t0.95(10)=-t0.05(10)=-1.8125  当n很大时,(n≥30),t分布可以用N(0,1)近似  P(t>-tα)=1-α,p(t>t1-α)=1-α,∴t1-α=-tα4.一些重要结论  来自一般正态总体的样本均值和样本方差S2的抽样分布是应用最广的抽样分布,下面我们加以介绍。65

13数理统计 定理4.设X1,X2,…Xn是来自正态总体N(μ,σ2)的样本,其样本均值和样本方差分别为:    则有  (1)与s2相互独立;  (2)    特别,若(不证)  推论:设,σ21=σ22=σ2并记    则  (不证)  本章小结本章的基本要求:  (一)知道总体、样本、简单样本和统计量的概念  (二)知道统计量和s2的下列性质:E(s2)=σ2(三)若x的分布函数为F(x),分布函数为f(x),则样本(x1,x2,…xn)的联合分布函数为F(x1)F(x2)…F(xn)样本(x1,x2,…xn)的联合分布密度为f(x1)f(x2)…f(xn),样本(x1,x2,…xn)的概率函数,p(x1,x2,…xn)=p(X=x1)p(X=x2)…p(X=xn)因而顺序统计量x(1),…x(n)中65

14数理统计  X(1)的分布函数为1-(1-F(x))n  X(n)的分布函数为[F(x)]n  (四)掌握正态总体的抽样分布  若X~N(μ,σ2)则有  (1)    (2)  (3)  (4)若  =>  当时,。  (五)知道样本原点矩与样本中心矩的概念          第二章参数估计从本章开始我们介绍统计推断,所谓统计推断就是由样本推断总体,统计推断包括参数估计和假设检验两部分,它们是统计推断最基本而且是互相有联系的两部分,本章介绍统计推断的第一部分参数估计。  参数通常指总体分布中的特征值和和各种分布中的参数,例如二点分布B(1,65

15数理统计P)中的p,泊松分布P()中的,正态分布N(、)的、等,习惯用表示参数,通常参数是未知的。  参数估计的形式有两类,设x1,x2,…,xn是来自总体的样本。我们用一个统计量的取值作为参数的估计值,则称为的点估计(量),就是参数的点估计,如果对参数的估计需要对估计作出可靠性判断,就需要对这一可靠性给出可靠性区间或置信区间,叫区间估计。  下面首先介绍点估计   第一节点估计教学目的:要求学生了解参数点估计的基本思想,理解参数点估计的基本概念,熟练运用替换原理、矩法估计和最大似然估计对参数进行估计。教学重点:矩法估计、最大似然估计.教学难点:运用矩法估计、最大似然估计对参数进行估计.  直接用来估计未知参数的统计量称为参数的点估计量,简称为点估计,人们可以运用各种方法构造出很多的估计,本节介绍两种最常用的点估计方法。它们是:矩法和极大似然法。一、替换原理和矩法估计  用下面公式表示的方法叫矩法      例1.对某型号的20辆汽车记录每5L汽油的行驶里程(km),观测数据如下:  29.8 27.6 28.3 27.9 30.1 28.7 29.9 28.0 27.9 28.7  28.4 27.2 29.5 28.5 28.0 30.0 29.1 29.8 29.6 26.9  这是一个容量为20的样本观测值,对应总体是该型号汽车每5L汽油的行驶里程,其分布形式尚不清楚,可用矩法估计其均值,方差,本例中经计算有  =28.695,=0.9185  由此给出总体均值,方差的估计分别为即65

16数理统计  矩法估计的统计思想(替换原理)十分简单明确,众人都能接受,使用场合甚广。  例2.设总体为指数分布,其密度函数为  x1,…,xn是样本,由于,亦即,故的矩法估计为    例3.设x1,…,xn是来自服从区间(0,)上的均匀分布的样本,>0为未知参数。求的矩估计。  解:易知总体X的均值为    由矩法的矩估计为    比如,若样本值为0.1,0.7,0.2,1,1.9,1.3,1.8,则的估计值  =2×(0.1+0.7+0.2+1+1.9+1.3+1.8)=2  例4.在一批产品取样n件,发现其中有m件次品,试用此样本求该批产品的次品率p的矩估计。  解:因为  ∴  例如抽样总数n=100,其中次品m=5.  则  例5.电话总机在一分钟间隔内接到呼唤次数X~P()。观察一分种接到呼唤次数共观察40次,结果如下65

17数理统计接到呼唤次数012345观察次数51012832  求未知参数的矩估计  解:(1)∵X~P()   ∴EX=   由矩法   ∴  (2)计算(0×5+1×10+2×12+3×8+4×3+5×2)=2   ∴=2二、极大似然估计  为了叙述极大似然原理的直观想法,先看例6  例6.设有外表完全相同的两个箱子,甲箱中有99个白球和1个黑球,乙箱中有99个黑球和1个白球,现随机地抽取一箱,并从中随机抽取一球,结果取得白球,问这球是从哪一个箱子中取出的?  解:不管是哪一个箱子,从箱子中任取一球都有两个可能的结果:A表示取出白球,B表示取出黑球,如果我们取出的是甲箱,则A发生的概率为0.99,而如果取出的是乙箱,则A发生的概率为0.01,现在一次试验中结果A发生了,人们的第一印象就是:“此白球(A)最像从甲箱取出的”,或者是说,应该认为试验条件对事件A出现有利,从而可以推断这球是从甲箱中取出的,这个推断很符合人们的经验事实,这里“最像”就是“极大似然”之意。  本例中假设的数据很极端,一般地,我们可以这样设想,在两个箱子中各有100个球,甲箱中白球的比例是P1,乙箱中白球的比例是P2,已知P1>P265

18数理统计,现随机地抽取一个箱子并从中抽取一球,假定取到的是白球,如果我们要在两个箱子中进行选择,由于甲箱中白球的比例高于乙箱,根据极大似然原理,我们应该推断该球来自甲箱。  下面分别给出离散型随机变量和连续型随机变量的极大似然估计求未知参数的估计的步骤  (一)离散型随机变量第一步,从总体X取出样本x1,x2,…,xn第二步,构造似然函数L(x1,x2,…,xn,)=P(X=x1)P(X=x2)…P(X=xn)第三步,计算lnL(x1,x2,…,xn,)并化简第四步,当=时lnL(x1,x2,…,xn,)取最大值则取=常用方法是微积分求最值的方法。(二)连续型随机变量若X~f(x,)第一步 从总体X取出样本x1,x2,…,xn第二步 构造似然函数L(x1,x2,…,xn,)=f(x1,)f(x2,)…f(xn,)第三步 计算lnL(x1,x2,…,xn,)并化简第四步 当=时lnL(x1,x2,…,xn,)取最大值则取=常用方法是微积分求最值的方法例7.设总体X~B(1,P)即    设P(A)=,从总体X中抽样x1,x2,…,xn,问最大似然法求  解:当X~B(1,P)时,应有    ∴P(X=1)=P,P(X=0)=1-P  第一步 构造似然函数  L(x1,x2,…,xn,P)=P(X=x1)P(X=x2)…P(X=xn)  =  =  第二步 计算lnL(x1,x2,…,xn,P)并化简  =(x1+…+xn)lnp+(n-(x1+…+xn)ln(1-p)  第三步 求  =65

19数理统计  ∴驻点为  化简为(x1+…+xn)(1-p)=p[n-(x1+…+xn)]  ∴(x1+…+xn)=np  ∴驻点  因为只有一个驻点  ∴是最大点  ∴取  例抽样n次A发生m次,则在x1,x2…xn中有m个1,其余为0,  ∴  例8.(1)设总体X服从泊松分布p(),求的极大似然估计;(2)设总体X服从指数分布E(),求的极大似然估计  解:(1)∵X~P()   ∴p(X=k)=从总体X中取样本x1,x2…xn。   ∴    ∴驻点  解得的极大似然估计    易知的矩估计亦为  (2)∵X~E()   ∴  第一步,从中取样本值x1,x2…xn,应有x1>0,x2>0…xn>065

20数理统计  ∴似然函数L(x1,x2…xn)=f(x1)f(x2)…f(xn)=  第二步 计算  第三步 求  ∴驻点是最大点  ∴取  在例2中用矩法估计也是同样结果。  例9.设,即  从中取样x1,x2…xn,试用最大似然法求  解:因为样本x1,x2…xn已经取出。  所以应有0≤x1≤,0≤x2≤,…0≤xn≤  所以的取值范围为  第一步 构造似然函数            ∵>0,很明显,似然函数是的单调减函数,因此当最小时,似然函数最大,由条件  知的最小值为  所以时最大。取  这一结果与用矩法估计(例7-3)的结果不同。  例10.若,从中抽样x1,x2…xn,试用最大似然估计法求:,  解:X的似然函数65

21数理统计      将分别关于两个分量求偏导并令其为0即得到似然方程组  ,(1)  ,(2)  解此方程组,由(1)可得驻点,的极大似然估计为,  将之代入(2)给出的极大似然估计  第二节点估计的评价标准教学目的:要求学生了解相合性、无偏性、有效性和均方误差的基本思想,理解相合性、无偏性、有效性和均方误差的基本概念,熟练掌握相合性、无偏性和有效性的判别方法。教学重点:相合估计、无偏估计和有效性。教学难点:如何确定相合估计、无偏估计和有效性。我们已经看到,点估计有各种不同的求法,为了在不同的点估计间进行比较选择,就必须对各种点估计的好坏给出评价标准。  数理统计中给出了众多的估计量评价标准,对同一估计量使用不同的评价标准可能会得到完全不同的结论,因此,在评价某一个估计好坏时首先要说明是在哪一个标准下,否则所论好坏毫无意义。  但在诸多标准中,有一个基本标准是所有的估计都应该满足的,它是衡量一个估计是否可行的必要条件,这就是估计的相合性,我们就从相合性开始介绍。65

22数理统计一、相合性  我们知道,点估计是一个统计量,因此它是一个随机变量,在样本量一定的条件下,我们不可能要求完全等同于参数的真实取值,但如果我们有足够的观测值,根据格里纹科定理,随着样本量的不断增大,经验分布函数逼近真实分布函数,因此完全可以要求估计量随着样本量的不断增大而逼近参数真值,这就是相合性,严格定义如下,  定义2.设为未知参数,是的一个估计量,n是样本容量,若对任何一个,有  则称为参数的相合估计  相合性被认为是对估计的一个最基本要求,如果一个估计量,在样本量不断增大时,它都不能把被估参数估计到任意指定的精度,那么这个估计是很值得怀疑的,通常,不满足相合性要求的估计一般不予考虑,证明估计的相合性一般可应用大数定律或直接由定义来证。  例11.用大数定律证明是的相合估计  证:由切比雪夫大数定律    ∴  即  ∴是的相合估计  为了避免用定义判断相合性的困难,下面介绍一个判断相合性很有用的定理:  定量:设是的估计量若(1)(2)65

23数理统计则是的相合估计。  例12.证明是的相合估计  证:在前面我们已经证明  (1)  (2)     ∴是的相合估计二、无偏性  相合性是大样本下估计量的评价标准,对小样本而言,需要一些其他的评价标准,无偏性便是一个常用的评价标准。  设是的一个估计,的参数空间为,若对任意的,有则称是的无偏估计,否则称为有偏估计。  例13.对任一总体而言,样本均值是总体均值的无偏估计,当总体k阶矩存在时,样本k阶原点矩是总体k阶原点矩的无偏估计,但对k阶中心矩则不一样,例如,二阶样本中心矩就不是总体方差的无偏估计,事实上, 对此,有如下两点说明  (1)当样本量趋于无究时,有,我们称为的渐近无偏估计,这表明当样本量较大时,可近似看作的无偏估计  (2)若对作如下修正:则是总体方差的无偏估计,这种简章的修正方法在一些场合常被采用,它比更常用,这是因为在n≥2时,<,因此用估计有偏小的倾向,特别在小样本场合要使用估计。  无偏性不具有不变性。即若是的无偏估计,一般而言,g()不是g()的无偏估计,除非g()是的线性函数,例如,是的无偏估计,但s不是的无偏估计  例14.证明是的无偏估计  。其中是X的样本65

24数理统计  证:  =  =  =  =  ∴  特别情形是的无偏估计  例15.证明是的无偏估计  证 ∵    ∴     =     =    ∴三、有效性  参数的无偏估计可以有很多,那么如何在无偏估计中进行选择?直观的想法是希望该估计围绕参数真值的波动越小越好,波动的大小可以用方差来衡量,因此人们常用无偏估计的方差的大小作为度量无偏估计优劣的标准,这就是有效性。  定义4.设,是的两个无偏估计,如果对任意的有则称比有效例16.设x1,…xn是取自某总体的样本,记总体均值为,总体方差为,则都是的无偏估计,但显然,只要n>1,比有效,这表明,用全部数据的平均估计总体均值要比只使用部分数据更有效。  例17.比较与谁有效  解:(1)65

25数理统计    ∴与都是的无偏估计  (2)  =    =  ∵  ∴比有效  例18.设,从总体中取样  证明 是的无偏估计和相合估计  解:(1)  ∴  ∴    ∴是的无偏估计    =  ∴是的相合估计65

26数理统计第三节参数的区间估计教学目的:要求学生了解置信区间的基本思想,理解置信区间的基本概念,掌握求置信区间的枢轴量法方法,熟练掌握正态总体参数置信区间的计算公式和大样本置信区间。能用R软件计算正态总体参数的置信区间。教学重点:置信区间的思想、概念和枢轴量法方法,计算正态总体参数的置信区间。教学难点:计算单个正态总体的置信区间以及两个正态总体下的置信区间。  用点估计去估计总体的参数,即使是无偏且有效的,也会由于样本的随机性,使得从一个样本x1,x2,x3,…,xn算得的估计值不一定是被估计的参数的真实值,而且估计值的可靠性并不知道,这是一个重大的问题,因此,必须解决根据估计量的分布,在一定可靠性的程度下指出被估计的总体参数的取值范围,这正是本节要介绍的参数的区间估计问题。一、置信区间概念  为了引入置信区间的概念,请看下面的引例。  引例 设某种绝缘子抗扭强度X服从正态分布,其中未知,已知(=45公斤·米),试对总体均值作区间估计。65

27数理统计  对于区间估计,要选择一个合适的统计量,若在该总体取一个容量为n的样本x1,x2,x3,…,xn,样本均值为的点估计即,然而我们要给出的一个区间估计,以体现出估计的误差,我们知道。在区间估计问题中,要选取一个合适的估计函数。这时,可取,它是的标准化随机变量,且具备下面两个特点:  (1)u中包含所要估计的未知参数(其中已知);  (2)u的分布为N(0,1),它与未知参数无关。  因为u~N(0,1),因而有  ,  根据u~N(0,1)的概率密度的对称性(见下图)  可得。当α=0.05时,1-α=0.095,=1.96,将不等式转化为,亦即,  因此有  。  当α=0.05时,。65

28数理统计  。  说明未知参数包含在区间中的概率是95%,这里,不仅给出了的区间估计,还给出了这一区间估计的置信度(或置信概率)。事实上,当置信度为1-α时,区间估计为  在引例中,若=160,=40,n=16。则有说明该绝缘子抗扭强度X的期望在(140.4,179.6)内的可靠度为0.95。  下面,引出置信区间的概念。  定义5.设为总体的未知参数是由样本定出的两个统计量,若对于给定的概率1-α(0<α<1),有,则随机区间称为参数的置信度为1-α的置信区间,称为置信下限,称为置信上限。  置信区间的意义可作如下解释:包含在随机区间中的概率为100(1-α)%;或者说,随机区间以100(1-α)%的概率包含。粗略地说,当α=0.05时,在100次的抽样中,大致有95次包含在中,而其余5次可能不在该区间中。  α常取的数值为0.05,0.01,此时置信度1-α分别为0.95,0.99。  置信区间的长度可视为区间估计的精度,下面分析置信度与精度的关系。  (1)当置信度1-α增大,又样本容量n固定时,置信区间长度增大,即区间估计精度减低;当置信度1-α减小,又样本容量n固定,置信区间长度减小,即区间估计精度提高。  (2)设置信度65

29数理统计1-α固定。当样本容量n增大时,置信区间减小(如引例中,置信区间长度为),区间估计精度提高。  二、单个正态总体参数的置信区间  正态总体是最常见的分布,本小节中我们讨论它的两个参数的置信区间。1.已知时的置信区间设总体X服从正态分布,其中已知,而未知,求的置信度1-α的置信区间。这一问题实际上已在引例中的讨论中解决,得到。所以的置信度1-α的置信区间为。当α=0.05,=1.96;当α=0.01,=2.576。    例1.某车间生产滚珠,从长期实践知道,滚珠直径X服从正态分布。从某天产品里随机抽取6个,测得直径为(单位:毫米):  14.6,15.1,14.9,14.8,15.2,15.1。  若总体方差=0.06,求总体均值的置信区间(α=0.05,α=0.01)。  解,  α=0.05时,置信度为95%的置信区间为    α=0.01时,置信度为99%的置信区间为  。  从此例知,在样本容量n固定时,当置信度1-α较大时,置信区间长度较大;当置信度1-α较小时,置信区间较小。  65

30数理统计  例2.用天平称量某物体的质量9次,得平均值为=15.4(g),已知天平称量结果为正态分布,其标准差为0.1g,试求该物体质量的0.95置信区间。  解此处1-α=0.95,α=0.05,查表知u0.025=1.96,于是该物体质量的0.95的置信区间为  ,  从而该物体质量的0.95置信区间为[15.3347,15.4653]。    例3.设总体为正态分布,为得到的置信水平为0.95的置信区间长度不超过1.2,样本容量应为多大?  解由题设条件知的0.95置信区间为  ,  其区间长度为,它仅依赖于样本容量n而与样本具体取值无关。现要求,即有。现1-α=0.95,故=1.96,从而。即样本容量至少为11时才能使得的置信水平为0.95的置信区间长度不超过1.2。  2.未知时的置信区间  这时可用t统计量,因为,完全类似于上一小节65

31数理统计  由于t(n-1)分布的概率密度f(x)的对称性有(见下图)    解得  其中是的无偏估计。    例4.假设轮胎的寿命服从正态分布。为估计某种轮胎的平均寿命,现随机地抽12只轮胎试用,测得它们的寿命(单位:万千米)如下:  4.68 4.854.324.854.615.025.204.604.584.724.384.70试求平均寿命的0.95置信区间。  解此处正态总体标准差未知,可使用t分布求均值的置信区间。本例中经计算有=4.7092,s2=0.0615。取α=0.05,查表知t0.025(11)=2.2010,于是平均寿命的0.95置信区间为(单位:万千米)  。65

32数理统计  3.的置信区间  此时虽然也可以就是否已知分两种情况讨论的置信区间,但在实际问题中未知时已知的情况是极为罕见的,所以我们只在未知的条件下讨论的置信区间。  设x1,x2,x3,…,xn为来自总体X的样本,样本方差s2可作为的点估计。由  ,  中包含未知参数,又它的分布与无关,以作为估计函数,可用于的区间估计。由于分布是偏态分布,寻找平均长度最短区间很难实现,一般都改为寻找等尾置信区间:把α平分为两部分,在分布两侧各截面积为的部分,即采用的的两个分位数  它们满足。(见下图)65

33数理统计将上式开方即可得标准差的置信区间。例5.某厂生产的零件质量X服从正态分布。现从该厂生产的零件中抽取9个,测得其质量为(单位:g)  45.345.445.145.345.545.745.445.345.6  试求总体标准差的0.95置信区间。  解由数据可算得s2=0.0325,(n-1)s2=8×0.0325=0.26,这里α=0.95,查表知代入公式可得的0.95置信区间为  。  从而的0.95置信区间为[0.1218,0.3454]。  以上关于正态总体参数的区间估计的讨论列表如下表所示。  65

34数理统计本章小结本章考核要求:(一)点估计(1)知道点估计的概念  (2)会用矩法求总体参数的矩估计值,主要依据是    (3)会用最大似然估计法求总体参数的估计值。  基本方法是由样本x1,x2,x3,…,xn构造一个似然函数或似然函数的对数65

35数理统计  L(x1,x2,x3,…,xn,)=P(X=x1)P(X=x2)…P(X=xn)  L(x1,x2,x3,…,xn,)=f(x1)f(x2)…f(xn)  然后由lnL(x1,x2,x3,…,xn,)取最大的值时的值为的值,即。是L的最大值点。  (二)点估计量的评价标准(1)若,则是的无偏估计。  (2)若都是的无偏估计,且就说有效。  (3)若。  就说是的相合估计  以上三条标准中主要掌握无偏估计和有效估计(三)区间估计(1)知道区间估计的概念  (2)会求一个正态总体的参数的置信区间。公式见表7-1  第三章假设检验本章主要介绍统计假设检验的基本思想和概念以及参数的假设检验方法。第一节假设检验的基本思想和概念65

36数理统计教学目的:要求学生了解假设检验的基本思想,理解假设检验的基本概念,认识假设检验问题,熟悉假设检验的基本步骤。教学重点:基本概念,假设检验的基本步骤.教学难点:基本概念的理解.一、统计假设的概念  为了引入统计假设的概念,先请看例8-1。  例1.味精厂用一台包装机自动包装味精,已知袋装味精的重量,机器正常时,其均值=0.5(0.5,0.015的单位都是公斤)。某日开工后随机抽取9袋袋装味精,其净重(公斤)为:  0.497,0.506,0.518,0.524,0.498,0.511,0.520,0.515,0.512问这台包装机是否正常?  此例随机抽样取得的9袋味精的重量都不正好是0.5公斤,这种实际重量和标准重量不完全一致的现象,在实际中是经常出现的。造成这种差异不外乎有两种原因:一是偶然因素的影响,二由于偶然因素而发生的(例如电网电压的波动、金属部件的不时伸缩、衡量仪器的误差而引起的)差异称为随机误差;由于条件因素(生产设备的缺陷、机械部件的过度损耗)而产生的差异称为条件误差。若只存在随机误差,我们就没有理由怀疑标准重量不是0.5公斤;如果我们有十足的理由断定标准重量已不是0.5公斤,那么造成这种现象的主要原因是条件误差,即包装机工作不正常,那么,怎样判断包装机工作是否正常呢?  我们通过解例1来找出解假设检验问题的思想方法。  解已知袋装味精重,假设现在包装机工作正常,即提出如下假设:  ,65

37数理统计  这是两个对立的假设,我们的任务就是要依据样本对这样的假设之一作出是否拒绝的判断。  由于样本均值是的一个很好的估计,故当为真时,应很小。当过分大时,我们就应当怀疑不正确而拒绝。怎样给出的具体界限值呢?  当为真时,由于,对于给定的很小的数0<α<1,例如取α=0.05,考虑  ,  其中是标准正态分布上侧分位数,而事件    是一个小概率事件,小概率事件在一次试验中几乎不可能发生。  我们查附表1得,又n=9,=0.015,由样本算得,又由上式得:    小概率事件居然发生了,这与实际推断原理相矛盾,于是拒绝,而认为这台包装机工作不正常。  从上面的例1中,我们看出为了对总体的某一参数进行检验,通常提出两个假设:。然后引入一个与被检参数有关的服从某种分布的统计量,根据事先给出的一概率标准α(叫显著水平)用反证法进行判断,由于小概率事件一般是不会发生的,如果引进的样本是一个小概率事件,因为它的确出现了,则可认为假设不能接受,否则便接受。(二)假设检验的程序65

38数理统计 根据以上的讨论与分析,可将假设检验的基本步骤概括如下:(1)根据实际问题提出原假设及备择假设。这里要求与有且仅有一个为真。(2)选取合适的统计量,即要求所选的统计量与假设无关且服从某种分布,常见的有标准正态分布t(n-1)分布,(n-1)分布及F(m,n)公布。 (3)规定小概率标准α的大小,也叫显著水平,通常可取α=0.01,α=0.05或α=0.1。(4)在显著水平α下,根据统计量的分布将样本空间划分为两部分,其一是接受的叫接受域,另一个是拒绝的叫拒绝域,记为W。 (5)根据样本值计算统计量的大小。(6)作出判断:若统计量的观测值落在拒绝域W内。则知小概率事件发生了,拒绝,接受。若统计量的观测值落在接受域则认为小概率事件没有发生,可以接受拒绝。第二节总体均值的假设检验教学目的:理解和掌握单个以及两个正态总体均值的假设检验的方法与思想,掌握正态总体方差检验的方法,能用R软件来完成这些检验。教学重点:检验方法的掌握,检验方法思想的理解。教学难点:检验方法的掌握。  本节讨论的总体均值的假设检验,多数是在正态总体下进行的。一、u检验65

39数理统计1.方差已知时,单个正态总体均值检验设x1,…,xn是从正态总体中抽取的一个样本,是已知常数,欲检验假设:,其中为已知数,它的程序:(1)提出假设(2)引入统计量(3)规定显著水平α,查标准正态分布表求的上侧分位数为临界值,写出相应的拒绝域其中常用的有α=0.1时,α=0.05时,α=0.01时,(4)根据样本值x1,x2,…,xn计算统计量u。  (5)判断:若u落入拒绝域W内时,则拒绝接受,     若u落入接受域内时,则接受,拒绝。  例2.某产品的重量X~N(12,1)(单位:克),更新设备后,从新生产的产品中抽样100件,测试样本均值(克),如果产品的方差没有改变,请问更新设备后,产品的平均重量是否有明显变化?(α=0.01)  解(1)设  (2)引入  (3)根据α=0.01,查标准正态分布函数表,得的上侧分位数  ∴拒绝域为(-∞,-2.58),(2.58,+∞)  (4)计算  (5)∵u落入拒绝域W中,故拒绝,即有明显差别。65

40数理统计2.方差已知时,两个正态总体值差的检验设,其中为已知常数。x1,…,xm和y1,…,yn分别是取自X和Y的样本且相互独立。欲检验假设:检验假设,等价于检验假设。而是的一个好估计量,且当为真时,有(8.2.1)于是对给定的水平α,查附表1,可得临界值,使,(8.2.2)从而得拒绝域,若u∈W,则拒绝;否则接受。  由上述讨论可知,由服从标准正态分布的检验统计量作检验的方法称为u检验法。  例3.设从中各抽样25件  测得=90,=89。设X,Y独立,请问是否可以认与基本相同?(α=0.05)   解(1)  (2)引进统计量  (3)根据α=0.05,查标准正态分布函数表将    ∴拒绝域W为(-∞,-1.96),(1.96,+∞)  (4)计算  (5)∵u在接受域内,∴接受,即与差别不大。65

41数理统计  二、t检验1.方差未知时,单个正态总体均值检验设x1,…,xm是从正态总体中抽取的一个样本,其中未知,欲检验(1),其中为已知数。(2)构造统计量(3)给定显著水平α,查t(n-1)表求分位数则拒绝域(4)根据样本x1,x2,…,xn计算  (5)若t落在拒绝域W内,则拒绝,接受。  若t未落在拒绝域内,则接受,拒绝。  例4.车辆厂生产的螺杆直径X服从正态分布,现从中抽取5枝,测得直径(单位:毫米)为22.3,21.5,22.0,21.8,21.4。如果未知,试问直径均值=21是否成立?(α=0.05)  解检验假设  (1),  由样本观测值算得  (2),  (3)计算  (4)根据α=0.05,查t(n-1)分布表  临界值。  ∴拒绝域为  (5)∵t=4.87在拒绝域内65

42数理统计  ∴否定,接受。  即认为直径均值不是21。1.方差未知时,两个正态总体均值检验设和分别是取自X和Y的样本且相互独立。(1)(未知)。欲检验假设(2)构造统计量。t即为我们构造的检验统计量。这时,对给定的水平α,查附表3可得临界值,使,即得拒绝域。例5.在漂白工艺中考察温度对针织品断裂强度的影响,现在70℃与80℃下分别作8次和6次试验,测得各自的断裂度X和Y的观测值。经计算得,。根据以往的经验,可认为X和Y均服从正态分布,且方差相等,在给定α=0.10时,问70℃与80℃对断裂强度的无显著差异?  解 由题设,可假定,于是若作统计假设为两个温度下的断裂强度无显著性差异,即相当于作假设  (1)。  (2)构造统计量  (3)α=0.10,查得t(m+n-2)=t(12)表,得临界值。    ∴拒绝域W为(-∞,-1.782)∪(1.782,+∞)65

43数理统计  (4)计算  (5)因为t落在拒绝域W内,所以拒绝,接受。  即认为断裂强度有明显差别。65

44数理统计第三节正态总体方差的假设检验教学目的:了解指数分布参数的假设检验,比例的检验,大样本检验,能用R软件来完成这些检验,会解决简单的实际问题。教学重点:对于检验方法的理解。教学难点:解决简单的实际问题。  在实际问题中,有关方差的检验问题也是常遇到的,如上节介绍的u检验和t检验中均与方差有密切的联系。因此,讨论方差的检验问题尤为重要。  一、检验 设总体未知,x1,…,nx为取自X的样本,欲检验假设其中为已知数。自然想到,看的无偏估计s2有多大,当H0为真时,s2应在周围波动,如果很大或很小,则应否定H0,因此构造检验统计量 。对于给定的显著水平α,可查(n-1)表可得分位数∴拒绝域W为。若统计量落在拒绝域W内,则拒绝,接受。若统计量落在接受域内,则接受,拒绝。  例6.设某厂生产铜线的折断力,现从一批产品中抽查10根测其折断力后经计算得样本均值=575.2,样本方差s2=68.1665

45数理统计。试问能否认为这批铜线折断力的方差仍为82(公斤)(取α=0.05)?  解按题意,欲检验假设  (1),  (2)引进统计量  (3)根据α=0.05,查(n-1)=(9)表得临界值    于是得拒绝域  (4)。  (5)计算  由于不在拒绝域W内,故不拒绝,即可认为该批铜线折断力的方差与82(公斤)无显著差异。  二、F检验    前面介绍的用t检验法检验两个独立正态总体的均值是否相等时,曾假定它们的方差是相等的。一般说来,两个正态总体方差是未知的,那么,如何来检验两独立正态总体方差是否相等呢?为此介绍F检验法。 设有两正态总体和分别是取自X和Y的样本且相互独立。欲检验统计假设 。由于是的无偏估计,是的无偏估计,当为真时,自然想到和应该差不多,其比值不会太大或大小,现在关键在于统计量服从什么分布。由§6.3节定理6-4推论我们知道,当为真时,65

46数理统计 这样,取F为检验统计量,对给定的水平α,查附表5,确定临界值使。即得拒绝域。若由样本观测值算得F值,当F∈W时,拒绝,即认为两总体方差有显著差异。否则认为与相容,即两总体方差无显著差异。例7.设甲、乙两台机床加工同一种轴,从这两台机床加工的轴中分别抽取若干根,测得直径数据如下    假定各台机床加工轴的直径X,Y分别服从正态分布,试比较甲、乙两台机床加工轴的精度有无显著差异(取α=0.05)。   解 按题意,本题是要检验两正态总体的方差是否相等,即要检验统计假设  (1)  (2)引入统计量  (3)根据α=0.05查F(7,6)表得    于是  ,  ∴拒绝域W为(0,0.195)∪(5.70,+∞)  (4)计算  (5)∵F不在拒约域W内,65

47数理统计  ∴接受,即方差无明显差别。    第四节单边检验  实际问题中,有时我们只关心总体的均值是否会增大,例如,试验新工艺以提高产品的质量,如材料的强度、元件的使用寿命等,当然,总体的均值越大越好,此时,需要检验假设。  。  其中是已知常数。  类似地,如果只关心总体的均值是否变小,就需要检验假设  ,  下面以单个正态总体方差已知情况为例,来讨论均值的单边检验的拒绝域。  设总体为已知。x1,…,xn,是取自X的一个样本,给定检验水平,α考虑单边假设问题。65

48数理统计  ,  由于是的无偏估计,故当为真时,不应太大,而当u偏大时应拒绝,故拒绝域的形式为:,c待定,  由于,故可找临界值α,  使  当成立时,  ,  因此,  。  由事件是一个小概率事件知,事件更是一个小概率事件。  如果根据所给的样本观测值,x1,…,xn算出,则应该否定原假设,即拒绝域为  W=(uα,+∞)。  当时,我们不否认原假设  类似地,对于单边假设检验问题:  ,  仍取为检验统计量,但拒绝域为65

49数理统计  W=(-∞,-uα),  即当由样本观测值算出时,则应拒绝原假设。  我们已注意到,上述单边检验问题,与单个正态总体方差情况的均值的双边检验问题一样,其所用的检验统计量和检验步骤完全相同,不同的只是拒绝域。我们着重指出:单边检验问题的拒绝域,其不等式的取向,与备择假设的不等式取向完全一致。这一特有的性质使我们无需特别记忆单边检验的拒绝域。因此,若遇上本章§8.2,§8.3中相应的单边检验问题,则只要作类似的处理就行了,例如:  设总体,欲检验统计假设  ,  其中为已知数。  这时,由双边检验问题中的检验知。检验统计量可取。若由样本观测值算出,则当时拒绝,即拒绝域为,此不等式取向与备择假设取向一致。  若欲检验    则检验统计量仍取,拒绝域为:,即W=(0,)  类似地,两个总体和分别是取自X和Y的样本且相互独立。欲检验统计假设  。  这时,类似于双边检验问题,检验统计量可取,拒绝域为,即。65

50数理统计  各种统计假设检验情况(检验水平为α)如下表所示。   例8.用某种农药施入农田中防治病虫害,经三个月后土壤中如有5ppm以上的浓度时,认为仍有残效,现在一大田施药区随机取10个土样进行分析,其浓度为:4.8,3.2,2.0,6.0,5.4,7.6,2.1,2.5,3.1,3.5(单位:ppm)。问该农药经三个月是否仍有残效(土壤残余农药浓度服从正态分布α=0.05)?   解显然,我们关心的只是总体均值是否小于,这时若用双边检验是不恰当有,所以我们应该检验。65

51数理统计  这时,检验统计量应取,对于给定的显著性水平α=0.05,查t分布表得    由样本算得T的观测值  t=-1.45>-1.83,  不能拒绝H0,即没有理由怀疑该农药已无残效。  例9.某类钢板每块的重量X服从正态分布,其一项质量指标是钢板重量的方差不得超过0.016kg2。现从某天生产的钢板中随机抽取25块,得其样本方差  解这是一个关于正态总体方差的单侧检验问题,原假设,备择假设为,此处n=25。若取α=0.05,则查表知,现计算可得  。  由此,在显著水平0.05下,我们拒绝原假设,认为该天生产的钢板重量的方差不符合要求。  例10.有一批枪弹,其初速度,其中=950m/s,=10m/s。经过较长时间储存后,现取出9发枪弹试射,测其初速度,得样本值如下(单位:m/s):914,920,910,934,953,945,912,924,940。问这批枪弹在显著性水平α=0.05下,其初速度是否起了变化(假定没有变化)?  解由题设,要检验的假设为,因为枪弹储存后初速度不可能增加,所以是(左侧)单边检验问题,由n=9,易另算出65

52数理统计  ,  查表知  -uα=-u0.05=-1.65,  所以  u=-6.6<-1.65=-uα,  故应拒绝H0而接受,即认为这批枪弹经过较长时间储存后初速度已经变小了。第五节两类错误  通过上面分析可知,一个假设检验问题,是要先给定一个原假设H0与备择假设H1,选出一个合适的检验统计量T,由此给出拒绝域W内。再根据在总体抽样得到的样本值(x1,x2,…,xn),看它是否落入由检验统计量T定出的拒绝域W内。当(x1,x2,…,xn)∈W时,就拒绝H0(即接受H1);而当(x1,x2,…,xn)∈W时,接受H0。  这样的假设检验有可能犯错误。数理统计的任务本来是用样本去推断总体,即从局部去推断整体,当然有可能犯错误。我们来分析会犯什么类型的错误。65

53数理统计  一类错误是:在H0成立的情况下,样本值落入了W,因而H0被拒绝,称这种错误为第一类错误,又称为拒真错误,一般记犯第一类的概率为α。  另一类错误是:在H0不成立的情况下,样本值未落入拒绝域W,因而H0被接受,称这种错误为第二类错误,又称为取伪错误,并记犯第二类错误的概率为。  第一类错误在例8-1中我们分析过。因为  ,  在H0成立条件下,根据样本值算得的u满足“”,即样本值落入拒绝域W,从而拒绝了H0。由此可见,犯第一类错误的概率即为α,而α即为显著性水平。  一般地,有  ,  要寻找合适的检验统计量T,使得由它定出的拒绝域W满足犯第一类错误的概率不超过α,犯第二类错误的概率为  现列表说明两类错误,见下表:人们当然希望在假设检验问题中犯两类错误的概率都尽可能小,然而在样本容量固定时是做不到的。人们发现:  (1)两类错误的概率是相互关联的。当样本容量n65

54数理统计固定时,一类错误的概率的减少将导致另一类错误的概率的增加。  (2)要同时降低两类错误的概率,需要增大样本容量n。   本章小结(一)理解假设检验的基本思想,知道假设检验的步骤。  (二)知道两类错误  (三)掌握单个正态总体的均值和方差的检验方法,并会简单应用,这是本章主要重点。  (四)两个正态总体会检验  (1),  (2),  65

55数理统计第三章回归分析教学目的:理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验。能用R软件来进行回归分析,会解决简单的实际问题。教学重点:回归系数的估计方法,回归方程的显著性检验.教学难点:回归方程的显著性检验.在现实世界中,不少变量之间是存在着一定的关系的,一般来说,这种关系大体上可分为两类,一类是确定性的,即函数关系。例如,电路中的电压V,电流I,电阻R三者间有关系。另一类是非确定性的,这类变量之间虽有一定的关系却又并不完全确定,例如人的血压与年龄有关,炼钢过程中含碳量与精炼时间有关,农作物产量与施肥量和单位面积的播种量有关……这些变量之间虽有一定联系,但又不能用普通函数关系式来表达。例如对给定的施肥量和确定的播种量,农作物的产量还是不能完全确定的。事实上,这些变量是随机变量或至少其中一个是随机变量。这种非确定性的关系称为相关关系。65

56数理统计  回归分析是研究相关关系的一种数学工具,是数理统计学中最常用的统计方法之一,在生产实践和科学研究中有着广泛的应用。本章仅简单介绍一元线性回归分析。  第一节回归直线方程的建立为了说明一元线性回归的数学模型,我们先看一个实际例子。例1.某种合金的抗拉强度y(kg/mm2)与其中的含碳量x(%)有关,现测12对数据如表1所示。表1x0.100.110.120.130.140.150.160.170.180.200.210.23y42.043.545.045.545.047.549.053.050.055.055.060.0为了了解其相关关系的表达式,在坐标上以(xi,yi),i=1,2,…,12为点,画出散点图如图9-1所示,这些点大体上散布在某条直线的周围,又不完全在一条直线上,从而可认为y与x的关系基本上是线性的,而这些点与直线的偏离是由其他一切随机因素的影响造成的。一般说来,含碳量x是一个可观测或可控制的普通变量,而对任意一个含碳量x,相应的抗拉强度是一个随机变量Y,实际观测值y是Y的一个可能取值。随x的变化,Y的观测值线性变化的趋势可表示为  。  其中表示Y随x的变化而线性变化的部分,是一切随机因素影响的总和,称为随机误差项,它是不可观测其值的随机变量,在Y的方差时,是一个E()=0,D()的随机变量,在涉及分布时,可进一步假定65

57数理统计。  一般地,将x取一组不同的值,x1,x2,…,xn,通过试验得到对应的Y的值y1,y2,…,yn,这样就得到n对观测值(xi,yi),i=1,2,…,n。可把y的值看成由两部分叠加而成,一部分是x的线性函数,另一部分系试验过程中其他一切随机因素的影响。因此,由上式可认为xi与yi之间有如下关系  ,(i=1,2,…,n),  且各相互独立。  此式就是一元线性回归的数学模型。  回归分析的基本问题是依据样本(xi,yi),i=1,2,…,n解决如下问题:(1)未知参数及的点估计,若分别为的估计,由此得。上式是抽述Y与x之间关系的经验公式。我们称上式为Y关于x的一元线性回归方程,它就是我们要求的y与x之间的定量关系的表达式,其图像便是类似图9-1中的直线,称此直线为回归直线,也称为回归系数,它是回归直线的斜率,称为回归常数,它是回归直线的截距。方程,它就是我们要求的y与x之间的定量关系的表达式,其图像便是类似图9-1中的直线,称此直线为回归直线,也称为回归系数,它是回归直线的斜率,称为回归常数,它是回归直线的截距。  (2)回归方程的显著性检验,在实际问题中,y与x之间是否存在关系式是要经过检验的。  下面先讨论未知参数及的点估计问题。  要求出回归方程,就是要求出的估计。而求此估计的一个自然而又直观的想法便是希望对一切xi,,观测值yi与回归值的偏离达到最小。为此,一般采用最小二乘法来求的估计。对已知样本(xi,yi),i=1,2,…,n令  ,  它表示当用上式来逼近Y时,n65

58数理统计个样品的总的误差平方和。最小二乘法的基本思想是选取的估计值,使  ,  其中右端min是对一切的容许值取的Q的最小值。  由于是的非负二次函数,其最小值必定存在,同时它是的可微函数,故由微积分中求极值方法知,应是下列方程组的解:    经整理,上式化为    我们将上式称为正规方程组,解此方程组得    其中,若引进记号则最小二乘估计为65

59数理统计  若将代入上式,可得回归方程的另一形式,这说明回归直线通过散点图的几何重心。下面续例1,计算回归方程用表格形式(表2)给出如下:表2序号xyx2xyy210.1042.00.01004.2001764.0020.1143.50.01214.7851892.2530.1245.00.01445.4002025.0040.1345.50.01695.9152070.2550.1445.00.01966.3002025.0060.1547.50.02257.1252256.2570.1649.00.02567.8402401.0080.1753.00.02899.0102809.0090.1850.00.03249.0002500.00100.2055.00.040011.0003025.00110.2155.00.044111.5503025.00120.2360.00.052913.8003600.00∑1.90590.50.319495.92529392.75  Lxy=0.0186,Lxy=2.4292,Lyy=335.2292,      此即抗拉强度y与含碳量x的线性回归方程。    65

60数理统计第一节回归方程的显著性检验由上段的讨论可知,对于任何两个变量x和y的一组观测数据(xi,yi),i=1,2,…,n,利用最小二乘法,都可以确定一个回归方程,然而事先并不知道Y与x之间是否真正存在线性关系,如果y和x之间并不存在显著的线性相关关系,那么,用上述的方法确定出的回归方程显然是毫无实际意义的。因此需要对y和x是否具有线性关系作统计检验。下面介绍一种常见的检验方法——F检验法。  由式可知,若y与x之间不存在线性关系,则一次项系数,反之,。所以检验y与x之间是否具有线性关系,应归纳为检验假设    为了检验H0是否为真,我们可以从分析各Yi(i=1,2,…,n)的不同原因着手,n个yi的值之所以不同的原因有二:一是E(Y)如果确是随x线性变化的,那么x的取值不同就是一个原因;二是其他一切随机因素的影响,显然,如果前一方面的影响是主要的,那么,方程是有意义的,否则方程就没有意义,为此,必须把由这个原因引起的yi的波动大小从yi的总波动中分解出来,记  ,称其为总的偏差平方和,它反映了各yi的波动大小。65

61数理统计其中反映了由于x的变化所引起的波动大小,称为回归平方和;而反映了观测值与回归直线间的偏离,这是由其他一切因素所引起的,称为剩余平方和。 上式称为平方和分解式。  显然,若方程有意义,总希望s回尽可能大,s剩尽可能小,那么s回要大到什么程度才能认为方程是有意义的呢?  在假定各相互独立,且的条件下,可以证明:  (1);  (2)在H0为真时,;  (3)s剩与s回相互独立。于是,当H0为真时      从而,对给定的显著水平α,查附表5,得临界值Fα(1,n-2),因此拒绝域为W=[Fα(1,n-2),+∞],当观测值F∈W时,拒绝H0,认为不真,这时我们认为,回归方程是显著的,反之,称回归方程不显著,这种用统计量F来检验回归方程显著与否的方法称为F检验法。  以上检验过程通常可通过一个所谓方差分析表来进行,见表9-3。表365

62数理统计  来源 平方和自由度 均方 F比 显著性回归剩余总和1n-2n-1F∈W时,拒绝H0;否则接受H0;  例2.对四块面积都是1亩的土地,施用化肥x(公斤),得到的水稻产量y(公斤)的实验结果如下表。请按下表求x(化肥量)与y(水稻产量)的线性回归方程,并用F法进行检验。序号xiyi110300100900003000220400400160000800033060090036000018000440700160049000028000∑10020003000110000057000解(一)求线性回归方程  ,  (1)  (2)  (3)      ∴线性回归方程为=150+14x。  (二)对进行显著性检验  (1)65

63数理统计  (2)引进统计量  (3)查F(1,n-2)表给定α=0.05,Fα(1,2)=18.5  ∴拒绝域W为(Fα(1,n-2),+∞)=(18.5,+∞)  (4)计算F    (5)判定:∵F落在拒绝域W内;∴拒绝H0,接受H1。  即线性关系明显。    65

64数理统计本章小结本章考核要求:  (一)会根据样本(x1,y1),(x2,y2),…,(xn,yn)求y与x的线性回归方程    其中    (二)会用F检验法判断y与x的线性关系是否明显  内容总结 (1)《数理统计》 教案 65

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
最近更新
更多
大家都在看
近期热门
关闭