《曾五一《统计学导论》笔记和课后习题(含考研真题)详解》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
目录内容简介目录第一章绪论1.1复习笔记1.2课后习题详解1.3考研真题与典型习题详解第二章数据的收集、整理与显示2.1复习笔记2.2课后习题详解2.3考研真题与典型习题详解第ア章数据分布特征的描述3.1复习笔记3.2课后习题详解3.3考研真题与典型习题详解第四章概率基础4.1复习笔记42课后习题详解4.3考研真题与典型习题详解第五章抽样分布与参数估计5.1复习笔记5.2课后习题详解5.3考研真题与典型习题详解第六章假设检验与方差分析6.1复习笔记6.2课后习题详解6.3考研真题与典型习题详解第七章相关与回归分析7.1复习笔记
17.1课后习题详解7.2考研真题与典型习题详解
2第八章非参数检验8.1复习笔记8.2课后习题详解8.3考研真题与典型习题详解第九章时间序列分析9.1复习笔记9.2课后习题详解9.3考研真题与典型习题详解第十章对比分析与指数分析10.1复习笔记10.2课后习题详解10.3考研真题与典型习题详解第十一章统计决策11.1复习笔记11.2课后习题详解11.3考研真题与典型习题详解第十二章统计综合评价12.1复习笔记12.2课后习题详解12.3考研真题与典型习题详解
3第一章绪论1.I复习笔记ー、统计。统计的含义统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是人们认识客观世界的一种有力工具。统计研究对象的特点(1)数量性:统计研究对象的基本特点。(2)总体性:统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析,得出反映现象总体的数量特征。(3)变异性:统计研究同类现象总体的数量特征,其前提是总体各单位的特征表现存在着差异,而且这些差异事先不可预知。统计学与统计实践活动的关系统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。统计学与统计实践活动的关系是理论与实践的关系。统计数据是统计实践活动的成果,人们对统计数据的要求是:客观性、准确性和及时性。统计研究的基本环节统计研究全程包括四个基本环节:(1)统计设计:根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统ー的定义、标准;同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据:经过统计设计,形成方案后,就可以开始收集统计数据。收集统计数据的基本方式包括科学实验和统计调査。(3)整理与分析:原始的统计数据收集上来之后,必须经过整理、加工和分析才能真正发挥其作用。所用方法分为统计描述和统计推断两大类。描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进ー步计算出各种能反映总体数量特征的综合
4指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。(4)统计资料的积累、开发与应用:对于已经公布的统计资料需要加以积累,并结合相关的实质性学科的理论知识进行分析和利用。该过程必须将实质性学科的理论与统计方法相结合。相关实质件实验推断统计相关实験盘学科却论学科理论图1-1统计研究的全过程上述统计研究的全过程如图1-1所示:二、统计学的种类及其性质ロ统计学的产生与发展统计学发展过程中有重要影响的学派主要有:政治算术学派、国势学派、社会统计学派和数理统计学派。其中,最早使用“统计学”这ー术语的是国势学派。纵观统计学发展的历史,可以发现:统计学最初是从设置指标研究社会经济现象的数量开始的。从当前世界各国的状况来看,统计学已经成为研究社会经济现象和自然现象数量方面的有力工具,它既研究确定现象的数量方面,也研究随机现象的数量方面。理论统计学和应用统计学现代统计学可分为两大类:(1)理论统计学:是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据的方法,是具有理学性质的通用方法论科学。(2)应用统计学:是以各个不同领域的具体数量为研究对象,是有具体对象的方法论,具有边缘交叉学科和复合型学科的性质。3.统计学与有关学科的联系和区别(1)统计学与数学的联系和区别①联系:a.两者都研究数量规律,都要利用各种公式进行运算。b.现代统计学中运用了大量的数学理论与方法;数学中的概率论,为统计学提供了数量分
5析的理论基础。c.数学分析的方法包括统计的数量分析。统计学中的理论统计学以抽象的数量为研究对象,其大部分内容可看作是数学的一个分支。②区别:a.从研究对象看,数学撇开具体的对象,以最一般的形式研究数量的联系和空间形式;而统计学特别是应用统计学则总是与客观的对象联系在ー起的。b.从研究方法看,数学的研究方法主要是逻辑推理和演绎论证的方法;而统计的方法,本质上是归纳的方法,根据实验或调查观察到大量情况,来归纳判断总体的情况。(2)统计学与其他学科的联系统计学为经济学和管理学等实质性学科提供数量分析工具,经济学和管理学等实质性学科对统计学在本领域的应用(包括统计指标的设定、统计方法的选择和统计分析)起理论指导作用。三、统计学的基本概念总体与总体单位(1)统计总体:由客观存在的、具有某种共同性质的许多个别单位所构成的整体,应具备同质性和大量性。根据总体包括单位数量不同,总体可分为有限总体与无限总体。(2)总体单位(简称单位):是组成总体的个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是ー种现象或活动过程等非实物单位。注意:总体和单位的概念是相对的,随着研究目的不同、总体范围不同而变化。同一个研究对象,在ー种情况下为总体,但在另ー种情况下又可能变成单位。目样本样本是由总体抽出的部分单位构成的集合体,由一定数量的单位构成,为总体的代表。标志的定义及分类(1)定义标志反映了总体各单位的属性或特征。(2)分类①根据所反映单位的特征:品质标志和数量标志。品质标志表明单位属性方面的特征,只能用文字、语言来描述来表现。数量标志表明单位数量方面的特征,可以用数值来表现。②根据其在各单位的表现:变异标志和不变标志。不变标志是指ー个总体中各单位有关标志的具体表现都相同。变异标志是指在ー个总体中
6,标志在各单位的具体表现有可能不同。统计指标与指标体系(1)统计指标①定义统计指标是通过对标志进行汇总计算而得到的反映总体数量特征的概念和数值,它是统计研究对象的具体化。②分类根据其所反映的数量特点:数量指标和质量指标。数量指标是反映现象总规模、总水平的统计指标,也称为总量指标,用绝对数来表示。质量指标是反映现象相对水平和工作质量的统计指标,是总量指标的派生指标,用相对数或平均数来表示。③统计指标与标志的联系标志反映总体单位的属性和特征,而指标则反映总体的数量特征。标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算オ能得到相应的指标〇由于总体和单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。(2)统计指标体系统计指标体系是由一系列相互联系的统计指标组成的有机整体,用以反映所研究现象各方面相互依存、相互制约的关系。统计数据(1)变量与变量值变量是说明现象某ー数量特征的概念,变量的具体取值是变量值。统计数据就是统计变量的具体表现。①根据变量值是否连续出现:连续型变量和离散型变量。连续型变量是指变量的取值在数轴上连续不断,无法ーー列举,即在ー个区间内可以取任意实数值。离散型变量是指变量的数值只能用计数的方法取得,其取值是整数值,可以ー一列举。②根据变量的取值是否确定:确定性变量和随机变量。确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。随机变量是受许多微小的不确定因素(又称随机因素)影响的变量,变量取值无法事先确定。(2)数据的计量尺度根据对研究对象计量的不同精确程度,分为四个层次:
7①定类尺度:最粗略、计量层次最低的计量尺度,是按照客观现象的某种属性对其进行分类。所使用的数值只是作为各种分类的代码,并不反映各类的优劣、量的大小或顺序。②定序尺度:是对客观现象各类之间的等级差或顺序差的ー种测度。该尺度不仅可将研究对象分成不同的类别,而且还可以反映各类的优劣、量的大小或顺序。③定距尺度:是对现象类别或次序之间间距的测度。该尺度不但可以用数表示现象各类别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差异。④定比尺度:是在定距尺度的基础上,确定相应的比较基数,然后将两种相关的数加以对比而形成相对数(或平均数),用于反映现象的结构、比重、速度、密度等数量关系。(3)数据的类型根据对客观现象观察的角度:横截面数据和时间序列数据。横截面数据(又称静态数据)是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据(又称动态数据)是指在不同时间对同一总体的数量表现进行观察而获得的数据。(4)数据的表现形式①绝对数:一般用于表现现象的规模和水平,其计量单位一般为实物单位或价值单位,有时也采用复合单位。②相对数:由两个互相联系的数值对比求得。常用相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。③平均数:反映现象总体的一般水平或分布的集中趋势。
81.2课后习题详解ー、判断题统计学是数学的ー个分支。()【答案】错【解析】统计学和数学都是研究数量关系的,两者虽然关系非常密切,但两个学科有不同的性质特点。数学撇开具体的对象,以最一般的形式研究数量的联系和空间形式;而统计学的数据则总是与客观的对象联系在ー起。特别是统计学中的应用统计学与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论。统计学是一门独立的社会科学。()【答案】错【解析】统计学是跨社会科学领域和自然科学领域的多学科性的科学。统计学是一门实质性科学。()【答案】错【解析】实质性科学研究该领域现象的本质关系和变化规律;而统计学则是为研究认识这些关系和规律提供合适的方法,特别是数量分析的方法。统计学是ー门方法论科学。()【答案】对【解析】统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。描述统计是用文字和图表对客观世界进行描述。()【答案】错【解析】描述统计是对采集的数据进行登记、审核、整理、归类,在此基础上进ー步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用信息,所以描述统计不仅仅使用文字和图表来描述,更重要的是要利用有关统计指标反映客观事物的数量特征。对于有限总体不必应用推断统计方法。()
9【答案】错【解析】一些有限总体,由于各种原因(如成本太高),并不一定都能采用全面调查的方法。例如,某ー批电视机是有限总体,要检验其显像管的寿命,不可能每一台都去进行观察和实验,只能应用抽样调査方法。经济社会统计问题都属于有限总体的问题。()【答案】错【解析】不少社会经济的统计问题属于无限总体。例如要研究消费者的消费倾向,消费者不仅包括现在的消费者而且还包括未来的消费者,因而实际上是ー个无限总体。理论统计学与应用统计学是两类性质不同的统计学。()【答案】对【解析】统计学沿着两个不同方向发展,形成了理论统计学和应用统计学,理论统计具有通用方法论的性质,而应用统计学则与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论。它们之间的学科性质也有所差异。二、单项选择题社会经济统计学的研究对象是()。A,社会经济现象的数量方面B.统计工作C.社会经济的内在规律D.统计方法【答案】A【解析】社会经济统计学的研究对象是社会经济现象总体的数量特征和数量关系,通过这些数量方面的研究反映社会经济现象发展变化的规律性。考察全国的工业企业的情况时,以下标志中属于不变标志的有()。A,产业分类B.职工人数C.劳动生产率D.所有制【答案】A【解析】不变标志是指在ー个统计总体中各总体单位表现相同的标志。题中全国
10的工业企业总体中,各工业企业的产业分类均属于エ业,故属于不变标志。要考察全国居民的人均住房面积,其统计总体是()。A,全国所有居民户B,全国的住宅C.各省市自治区D.某一居民户【答案】A【解析】统计总体是指由客观存在的某些性质上相同的许多个体所组成的整体;总体单位是指构成统计总体的各个个体。题中,统计总体是全国所有居民户,总体单位是全国每一个居民户。最早使用统计学这一学术用语的是()。A.政治算术学派B.国势学派C.社会统计学派D,数理统计学派【答案】B【解析】最早使用“统计学’‘这ー术语的是德国的阿亨瓦尔(G.Achenwall,1719-1772)»他认为统计学是关于国家显著事项的学问,主要通过对国家组织、人口、军队、领土、居民职业以及资源财产等事项的记述对国情国力进行研究。后人把从事这方面研究的德国学者称为“国势学派'三、分析问答题试分析以下几种统计数据所采用的计量尺度属于何种计量尺度。人口数民族信教人数进出口总额经济增长率教育程度答:根据对研究现象计量的精确程度不同,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。可以根据它们的数学特征和具体性质来对它们进行区分:定类尺度的数学特征是』''或"工",所以只可用来分类,民族可以区分为汉、藏、回等,但没有顺序和优劣之分,所以是定类尺度数据。定序尺度的数学特征是“>''或“ぐ',所以它不但可以分类,还可以反映各类的优劣和顺序,教育程度可划分为大学、中学和小学,属于定序尺度数据;定距尺度的主要数学特征是“+”或“-
11",它不但可以排序,还可以用确切的数值反映现象在两方面的差异,人口数、信教人数、进出口总额都是定距尺度数据;定比尺度的主要数学特征是“X”或“+",它通常都是相对数或平均数,所以经济增长率是定比尺度数据。请举ー个实例说明品质标志、数量标志、质量指标、数量指标之间的区别与联系。答:例如考察全国人口的情况,全国所有的人为统计总体,而每个人就是总体单位,每个人都有许多属性和特征,比如民族、性别、文化程度、年龄、身高、体重等,这些就是标志,标志可以分为品质标志和数量标志,性别、民族和文化程度都是品质标志,年龄、身高、体重等则是数量标志;而指标是说明统计总体数量特征的,用以说明全国人口的规模如人口总数等指标就是数量指标,而用以说明全国人口某一方面相对水平的相对量指标和平均量指标如死亡率、出生率等指标就是质量指标,质量指标通常是数量指标的派生指标。请举ー实例说明统计总体、样本、单位的含义,以及它们三者之间有什么联系。答:总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体,简称总体;构成总体的个体称为总体单位;样本是从总体中抽取的一部分元素的集合,是总体的一部分单位。例如,考察全国居民人均住房情况,全国所有居民构成统计总体,每ー户居民是总体单位,抽查其中5000户,这被调查的5000户居民构成样本。
121.3考研真题与典型习题详解ー、选择题以下关于数据类型的说法错误的是()。[华东师范大学2013研]A.温度属于定距类型的数据B.考试成绩(百分制)属于定比类型的数据C.性别属于定类类型的数据D.评级(如:优、良、中、差)属于定序类型的数据【答案】B【解析】定距型数据通常指诸如身高、体重、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示;定类型数据是指没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据。定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某ー个数值,而定比尺度中,“0’‘表示“没有‘‘或"无‘’。为了研究北京市财政支付能力,从北京统计年鉴搜集到历年北京市财政支出额数据,则该数据为()。[首都经济贸易大学2013研]A,时间序列数据B.截面数据C.观察数据D.实验数据【答案】A【解析】时间序列数据用于描述现象随时间发展变化的特征。下列变量属于数值型变量的是()。[东北财经大学2013研]A.定类变量B,定序变量C.定距变量D.定比变量E.定性变量【答案】CD【解析】CD两项,定距变量和定比变量均是区别同一类别个案中等级次序及其距离的变量。定比变量除了具有定距变量加与减的特性外,还具有乘与除的数学特质,二者均属于数值型变量。AB两项,定类变量和定序变量属于定性变量,表现为某事物的属性特征。
13指出下面的数据哪ー个属于定序数据()。[江苏大学2012研]A,上班的出行方式:自驾车,乘坐公共交通工具,骑自行车B.5个人的年龄(岁):21,26,35,22,28C,学生的考试成绩:优秀,良好,中,及格,不及格D,各季度的汽车产量(万辆):25,27,30,26【答案】C【解析】按照所采用的计量尺度不同,可以将统计数据分为以下四种类型:①定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。②定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。③定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。④定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。A项属于定类数据,B项属于定距尺度,C项属于定序尺度,D项属于定比尺度。以下哪ー种情形涉及定性数据的收集?()[中山大学2012研]A.质量控制工程师测量电灯灯泡的寿命B.社会学家通过抽样调查来估计广州市市民的平均年收入C.运动器材厂家在区分各大俱乐部棒球选手是左撇子还是右撇子时作的调查D.婚礼策划公司通过抽样调查来估计上海市市民举办婚礼的平均开销【答案】C【解析】分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。用部分数据去估计总体数据的理论和方法,属于()。[首都经济贸易大学2011研]A.描述统计B.复杂统计C.推断统计D.简单统计【答案】c【解析】描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。不便于确定中位数、众数和分位数的数据类型是()。[中南财经政法大学2002研]A,定类尺度B,定序尺度
14C.定比尺度D.定距尺度【答案】A【解析】定类尺度也称类别尺度或名义尺度,是将调查对象分类,标以各种名称,并确定其类别的方法。它实质上是ー种分类体系;定序尺度也称等级尺度或顺序尺度,是按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及次序的ー种尺度;定距尺度也称等距尺度或区间尺度,是ー种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法;定比尺度也称比例尺度或等比尺度,是ー种除有上述三种尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。从四者的定义中发现定类尺度是不便于确定中位数、众数和分位数的。用来描述样本特征的概括性数字度量称为()。A.参数B,统计量C.变量D,变量值【答案】B【解析】统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于样本是随机的,因此统计量是样本的函数。抽样的目的就是用样本统计量去估计总体参数。二、多选题下列变量中是连续变量的有()。[首都经贸2007研]A,产品产值B.商品销售额C.产品总成本D,エ资总额E.基本单位数量【答案】ABCD【解析】离散型变量是只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以ーー列举。连续型变量是可以在ー个或多个区间中取任何值的变量,它的取值是连续不断的,不能ーー列举。E项是离散型变量。2.统计总体的形成,从客观条件看,主要是()。[首都经贸2006研]A.同质性
15B.目的性C.客观性D.差异性【答案】ACD【解析】统计总体形成的三个条件是:①客观性,总体和总体单位必须是客观存在的,可以观察和计量的;②同质性,组成总体的所有个体必须是在某些性质上是相同的;③差异性,构成总体的各单位除了同质性一面还必须有差异性的一面,否则就不需要统计研究了。三、简答题简述统计的基本程序和基本内容。[东北财经大学2014研]答:统计是指对某ー现象有关的数据的搜集、整理、计算和分析等的活动。(1)统计的基本程序①统计设计:是根据统计研究的目的和研究对象的特点,明确统计指标和指标体系,以及应对的分组方法,并以分析方法指导实际的统计活动。②收集资料:是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。③整理资料:是将收集到的原始资料进行反复核对和认真检査,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。④分析资料:是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,做出科学合理的解释。(2)统计的基本内容①统计工作:指收集、整理和分析客观事物总体数量方面资料的工作过程,是统计的基础。②统计资料:统计工作所取得的各项数字资料及有关文字资料。③统计科学:研究如何搜集、整理和分析统计资料的理论与方法。你是如何认识统计学与其它学科的关系的(如统计学与经济学、统计学与会计学、统计学与数学)?[西南财大2003研复试]答:统计学是研究客观现象数量特征和数量关系的,它和数学的关系十分密切,不论统计指标的设计与计算,统计分布的描述,统计估计与检验等都离不开数学方法的应用。概率论的引入为建立现代化理论统计学的理论框架奠定了基础。随着科学技术的进步和统计方法的改善,数学的应用必将更加广泛。但是统计学和数学仍然有性质上的区别。数学研究
16抽象的数量关系和空间形式,阐明适合所有领域的运算规则,统计学则是研究现实存在的数量关系,表明所研究领域客观现象的数量规律的具体表现。从研究方法看,数学的研究主要是逻辑推理和演绎论证的方法,从严格的定义、假设的命题和给定的条件出发去推证有关的结论。而统计学则是应用归纳推断的方法,根据调查或实验观察到大量现象的个体情况,来归纳判断出现象总体的情况。统计数据是反映客观事实的,要认识问题、解决问题,就必须抓住客观事物的内在联系,不能把统计问题简单归结为数学问题。举例说明离散型变量和连续型变量。答:(1)离散型变量是指其数值只能用自然数或整数单位计算的变量。如,企业个数、职工人数、设备台数等。(2)连续型变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续型变量。
17第二章数据的收集、整理与显示2.I复习笔记ー、统计数据的收集统计数据的收集方法(1)概念统计数据收集是根据统计研究预定的目的和任务,运用相应的科学的调查方法与手段,有计划、有组织地收集反映客观现实的统计资料的过程。(2)统计数据收集的方式①直接向调查对象收集反映调查单位的统计数据(或称原始资料);②收集已经加工、整理过的、说明总体现象的数据(一般称为二手资料)。(3)统计数据的分类按其性质不同划分为调查数据和试验数据。(4)统计数据收集的方法①直接观察法:由调查人员到现场直接对调查对象进行观察点数和计量。②报告法(通讯法):一般是由统计工作机构将调查表格分发或电传给被调查者,被调查者则根据填报的要求将填好的调查表格寄回。③采访法:是根据被调查者的答复来收集统计资料,又可分为ロ头询问法和被调查者自填法。口头询问法是由调查人员对被调查者逐一采访,当面填答;被调查者自填法,即调查人员把调查表交给被调査者,由被调查者按实际情况填写,而后交调查人员审核收回。④登记法:是由有关的组织机构发出通告,规定当事人在某事发生后到该机构进行登记,填写所需登记的材料。⑤其他方法:计算机、网络、光电技术、卫星遥感、地理信息系统等高新技术已经或正在被广泛地引入统计数据收集的领域中(例如,上述各种调查方法都可以与网络相结合,形成网络调查)。统计调查方式
18(1)定义调查方式是指组织收集调查数据的形式与方法。(2)分类①按调査的范围划分:全面调查和非全面调查。全面调查是对调查对象的所有单位ーー进行调査;非全面调査是对调查对象其中的一部分单位进行调査,以取得调查对象的一部分资料,用来推断总体或反映总体的基本情况。②按时间标志划分:连续性(经常性)调查和不连续性(一次性)调查。连续性(经常性)调查是指随着研究现象的变化,连续不断地进行调查登记;不连续性(一次性)调查是指间隔一段较长的时间对事物的变化进行一次性调查。(3)常用统计调查方式①普查普查是专门组织的ー种全面调査,它主要是用以收集某些不能或不宜用定期报表收集的统计资料。对国情国力的调查一般采用普查。a.主要特点第一,属于非经常性的调查,一般间隔较长的时间オ进行一次;第二,属于全面调査,它比任何ー种调查形式更能掌握大量、详细、全面的统计资料。b.组织形式第一,经过组织的普查机构,配备ー定数量的普查人员,对调查单位直接进行登记(例如我国人口普査);第二,利用调查单位的原始记录和核算资料,结合清库盘点,由调查单位自行填报调查表格(例如我国物资库存普查)。②抽样调查抽样调查是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调査对象总体特征作出具有一定可靠程度的推算,是ー种非全面调查。抽样调查可以分为概率抽样和非概率抽样:概率抽样是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算调查对象的总体特征;非概率抽样是随便地或有意识地抽取单位进行调査,从而认识研究对象的变动情况或发展规律。一般不以样本数据推断总体数量特征,其调查误差也难以事先计算。a.概率抽样的特点第一,样本单位按随机原则抽取,排除了主观因素对选样的影响;第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计;第三,抽样误差可以事先计算并加以控制。b.抽样调查的适用场合第一,针对ー些不可能或不必要进行全面调查的社会现象;
19第二,对普查资料进行必要的修正。③重点调查重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查。重点单位的选择主要着眼于它在所研究现象的标志总量中所占的比重。重点调查的适用场合:当调查任务只要求掌握基本情况,而部分单位又能比较集中地反映研究的项目,采用重点调查比较适宜。但重点调查无法对现象总体的数量特征作出准确的推算,也无法测算调查误差。④统计报表制度统计报表制度是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式、统ー的指标项目、统ー的报送时间和报送程序,自下而上地逐级地定期提供统计资料的ー种调查方式。a.主要特点第一,报表资料的来源建立在各个基层单位原始记录的基础上,基层单位可利用其资料对生产、经营活动进行监督管理:第二,由于统计报表是逐级上报和汇总的,各级领导部门能获得管辖范围内的报表资料,了解本地区、本部门的经济和社会发展情况;第三,由于统计报表是属于经常性(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。b.局限性随着社会主义市场经济的发展,统计调查单位变动频繁,再加上决策主体和利益主体的多层次化,各方面对统计数字真实性的干扰明显增加,从而影响统计数据的准确性。统计调查体系(1)统计调查体系是ー个国家开展统计调查方法和制度的总称。(2)我国新的统计调査体系是以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调査、科学推算和部分全面报表综合运用的调查体系。(3)我国的统计调查体系还采用科学的推算方法,即统计推算。①定义;统计推算是在不可能或不必直接通过调查取得资料的情况下,根据已掌握的资料,运用各种统计方法进行科学的估计推算,以间接方式取得所需的资料。②分类:静态推算(对同一时期内的未知项所作的推算)和动态推算(针对未来的时期所作的推算)。③内容;从ー个现象推算另ー现象、从局部推算总体、从现在推算未来。④方法:比例推算法、因素估算法、平衡估算法、线性插值法、拉格朗日插值法及各种动
20态数列的预测方法等。统计调査的方案设计(1)明确调査目的。明确统计调查要解决什么问题,只有明确调查目的,数据的搜集エ作オ能有序地进行。(2)确定调査对象和调査单位。①调查对象:是指需要调查的现象总体。②调查单位:是指所要调查的具体单位,它是进行调查登记的标志的承担者。③报告单位:亦称填报单位,是负责向上报告调查内容、提交统计资料的单位。④调查单位与报告单位的区别:报告单位一般是在行政上、经济上具有一定独立性的单位〇而调查单位可以是个人、企事业单位,也可以是物。根据不同的调查目的,调查单位与报告单位,有时是一致的,有时不一致。注意:对于抽样调查,确定调查对象就是明确目标总体,这是建立抽样框的前提。抽样调査单位是构成抽样框的基本要素。进行抽样调查方案设计,还应包括确定样本量的大小、样本的抽取方式和抽样的组织形式。(3)设计调査项目。调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标志和数量标志所构成。(4)设计调查表格和问卷。调查表一般包括ー览表和单ー表两种形式;问卷调查是ー种特殊的调查形式,常用于民意测验或市场调查。(5)确定调查时间。包括调查时间和调查期限两种含义:调查时间是指调查资料所属的时间,若所调查的是时期现象,就要明确规定调查资料所反映的起止日期,若调查时点现象,则调查时间为规定的统ー标准时点:调查期限是进行调查工作的时限,包括收集资料和报送资料的工作所需的时间,应尽可能缩短。(6)组织实施调査计划。调查组织工作包括确定调查机构,组织和培训调査人员,落实调査经费的来源和开支办法,确定调查数据的处理方法、报送方式和公布调查结果的时间。(7)调查报告的撰写。二手资料的主要来源渠道(1)统计年鉴。主要有《中国统计年鉴》、《国际统计年鉴》、地方统计年鉴和《中国统计摘要》等。(2)有关期刊。主要有《中国经济景气月报》、《中国经济数据分析》和《经济预测分析》等。
21(3)有关网站。主要有中国统计信息网、国研网、中国经济信息网和中国经济时报网等。二、统计数据的整理数据整理概述(1)两种含义:第一种是指对统计调查所收集到的各种数据进行分类和汇总,称为汇总性整理;第二种是对现成的综合统计资料进行整理。(本节所指为第一种含义)(2)数据整理的内容统计汇总方案的设计包括两方面:①确定总体的处理方法。主要是如何对所要研究的总体进行统计分组。②确定汇总哪些统计指标。汇总方案确定之后,可根据汇总方案,进行数据处理,计算各项指标数值。并利用统计表或统计图的形式,描述整理的结果。(3)数据整理的程序①统计资料的审核。检查原始数据的完整性与准确性。②资料的分组和汇总。对全部调查数据资料,按其性质和特点分组归类,上机进行数据处理,综合汇总形成各项统计指标。③编制统计表或绘制统计图。④统计数据资料的积累、保管和公布。统计分组(1)统计分组的概念根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。统计分组的对象是总体,分组标志可以是品质标志,也可以是数量标志。(2)统计分组的种类①按分组标志的多少划分:简单分组和复合分组;简单分组就是对研究现象按ー个标志进行分组,它只能从某ー方面说明和反映事物的分布状况和内部结构;复合分组是用两个或两个以上标志分组,即先按ー个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组。②按分组标志的性质划分:品质分组(或称属性分组)和数量分组(或称变量分组)。品质分组就是按品质(或属性)标志进行分组,适用于以定类尺度(列名尺度)或定序尺度(顺序尺度)计量的数据;数量分组就是按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。(3)统计分组的原则
22①穷尽原则:指总体中的每一个单位都应有组可归,或者说给出的各分组足以容纳总体所有的单位。②互斥原则:指在特定的分组标志下,总体中的任何ー个单位只能归属于某ー组,而不能同时归属于几个组。(4)品质分组的方法有些品质分组比较简单,分组标志ー经确定,组的名称和组数也随之确定。有些品质分组还取决于统计分析对分组层次的不同要求,对于ー些类别繁多的分组又称为分类。(5)数量分组的方法按数量标志分组,应注意两个问题:首先,分组时各组数量界限的确定必须能反映事物质的差别;其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。①单项式分组与组距式分组单项式分组;是指用ー个变量值作为ー组,形成单项式变量数列。一般适用于变动范围不大的离散型变量。组距式分组;是将变量依次划分为几段区间,一段区间表现为从“……到……”距离,把ー段区间内的所有变量值归为ー组,形成组距式变量数列。一般适用于连续型变量或者变动范围较大的离散型变量。②间断型组距式分组和连续型组距式分组在组距式分组中,每ー组变量值的最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。凡是组限不相连的,称为间断型组距式分组;凡是组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限,称为连续型组距式分组。连续型变量,只能采用连续组距式分组。注意;遵循“上限不在内”原则,即凡是总体某ー个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。③等距分组与异距分组等距分组;是指标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。适用于标志值变动比较均匀的情况。优点是便于计算,便于绘制统计图。异距分组:是指各组的组距不相等。适用于标志值分布很不均匀的场合、标志值相等的量具有不同意义的场合、标志值按ー定比例发展变化的场合等。④组距式分组相关指标的计算a.连续型组距式分组的组距=本组上限一本组下限间断型组距式分组的组距=本组上限一本组下限+1b.组数:组数的多少与组距的大小有直接关系。组距大,组数就少;组距小,组数就多。
23m=l+3.31ogAr美国学者斯特杰斯提出确定组数和组距的ー种经验公式,即斯特杰斯经验公式:d_R_J”nl+3.31ogy式中,n为组数,N为总体单位数,d为组距,R为全距,即最大变量值冷ス与最小变量值む之差。组中值一下限值+上限值C.组中值:上下限之间的中点数值称为组中值,组中值的计算公式为:在计算平均指标或进行其他统计分析时,常以组中值来代表各组标志值的平均水平。当各组标志值均匀分布时,组中值代表各组标志值的水平其代表性就高。注意:当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型变量自身的特点。d.开口组的组距与组中值:在编制组距式变量数列时,使用“XX以上,,或“XX以下,,这样不确定组距的组,称为开口组。开口组的组距是以相邻组的组距为本组的组距。频数分布(1)频数分布的基本概念在统计分组的基础上,可以将总体所有的单位按某ー标志进行归类排列,并计算其相应出现的次数,所得的分布称为频数分布(或次数分布)。通过对零乱的、分散的原始资料进行有次序的整理,形成一系列反映总体各组之间单位分布状况的数列,即分布数列。①分布数列的分类:品质分布数列(亦称品质数列)和变量分布数列(亦称变量数列)。品质数列是按品质标志分组所形成的数列;变量数列是按数量标志分组所形成的数列。②分布数列二要素a.总体按某标志所分的组;b.各组所出现的单位数,即频数(亦称次数)。注意:对于变量数列,总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,一般用x表示:频数(次)用/表示。③频率:将各标志出现的频数与总体单位总和相除可以得到频率,其性质包括:a.任何频率都是介于0和1之间的一个分数;
24b.各组频率之和等于1。④频数密度与频率密度为消除异距分组所造成的影响须计算频数密度和频率密度,其计算公式为:频数密度=频数/组距频率密度=频率/组距各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。累计频数与累计频率(1)向上累计频数(或频率)分布:表明某组上限以下的各组单位数之和占总体单位数的比重。其方法是先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。(2)向下累计频数(或频率)分布:表明某组下限以上的各组单位数之和占总体单位数的比重。其方法是先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。三、统计数据的显示。统计表(1)统计表的定义和结构①定义统计表是指分析表和容纳各种统计资料的表格,它可以有条理地显示统计资料,直观地反映统计分布特征,是统计分析的ー种重要工具。②结构a.从表式上看,包括:总标题、横行标题、纵栏标题和指标数值;总标题:是统计表的名称,它扼要地说明该表的基本内容,并指明时间和范围横行标题:是横行的名称,一般放在表格的左方纵栏标题:是纵栏的名称,一般放在表格的上方指标数值列:用来说明总体及其组成部分的数量特征,位于横行和纵栏的交叉处,是统计表格的核心部分b.从内容上看,包括:统计表由主词栏和宾词栏。主词栏:是统计表所要说明的总体及其组成部分宾词栏:是统计表用来说明总体数量特征的各个统计指标此外,统计表还有补充资料、注解、资料来源、填表单位和填表人等。(2)统计表的分类
25①按主词的结构划分:a.简单表:主词未经任何分组的统计表称为简单表;b.简单分组表:主词只按ー个标志进行分组形成的统计表,也称简单分组表;c.复合表:主词按两个或两个以上标志进行分组的统计表,也称复合分组表。②按宾词设计划分:a.宾词简单排列:宾词不进行任何分组,按一定顺序排列在统计表上;b.宾词分组平行排列:宾词栏中各分组标志彼此分开,平行排列;c.宾词分组层叠排列:统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在ー起。③主词分组与宾词分组的区别:主词分组的结果使总体分成许多组成部分,它们需要用统计指标(宾词)来描述,具有独立的意义;宾词分组的结果并不增加统计总体的各组成部分,仅仅是比较详细地描述总体已有的各个组成部分,从属于主词的要求。(3)统计表的设计总体要求是:简练、明确、实用、美观,便于比较。注意事项如下:①线条的绘制。统计报表的上下端以粗线绘制,表内纵横线以细线绘制。表格的左右两端一般不划线,采用“开口式’‘。②合计栏的设置。统计表各纵列若需要合计时,一般应将合计列在最后一行,各横行若需要合计时,可将合计列在最前ー栏或最后ー栏。③标题设计。统计表的总标题,横行、纵栏标题应简明扼要,统计资料的内容、资料所属的空间和时间范围应以简练而又准确的文字表述。④指标数值。表中数字应该填写整齐,对准位数。当数字小可略而不计时,可写上“0”;当缺某项数字资料时,可用符号“…”表示;不应有数字时用符号“一”表示。⑤计量单位。统计表必须注明数字资料的计量单位。⑥注解或资料来源。必要时,在统计表下应加注解或说明,以便查考。2.统计图(1)直方图直方图是用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方),若没有比率,直方图只保留左侧的次数。(2)折线图折线图是以线段的起伏表示其数量分布的特征。绘图时,可以在直方图的基础上,用折线
26将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成。(3)曲线图当变量数列的组数无限多时,折线便表现为一条平滑曲线。曲线图的绘制方法与折线图基本相同,只是在连接各组次数坐标点时应当用平滑曲线。(4)累计曲线图①累计曲线图的绘制累计曲线图包括向上累计频数(频率)分布图和向下累计频数(频率)图。在直角坐标系上将各组组距的上限与其相应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即向上累计曲线;在直角坐标系上将各组组距下限与其相应累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即向下累计曲线。向上累计曲线呈上升状,向下累计曲线呈下降状。组的次数(或频率)越少,曲线显得越平缓;组的次数(或频率)越多,曲线显得越陡峭。②洛伦茨曲线图美国的洛伦茨博士把累计频数(或频率)分布曲线运用于研究社会财富、土地和エ资收入的分配是否公平。这种累计曲线又称洛伦茨曲线图。其绘制方法如下:a.将分配对象和接受分配者的数量化成结构相对数并进行向上累计;b.纵轴和横轴均为百分比尺度,纵轴自下而上,用以测定分配的对象(如一国的财富、土地或收入等的分配状况),横轴由左向右用以测定接受分配者(如一个地区人口);c.根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点并使之平滑化,所得曲线即所要求的洛伦茨曲线。
27100Hホ伦茂囲蟆")图2-1如图2・1所示,横轴是累积的人口百分比,纵轴是累积的收入或财富百分比。用实际收入分配曲基尼系数=ーエ线与绝对平等线所包围的面积对比总面积,计算基尼系数,计算公式如下:式中:A表示实际收入L曲线与绝对平均线(对角线)之间的面积;B表示实际收入L曲线与绝对不平均线之间的面积。基尼系数值越小,即实际收入分配曲线越靠近绝对平等线,则收入分配越平等;反之,基尼系数值越大。频(次)数分布图的类型(1)钟型分布钟型分布的特征是“两头小,中问大’’,即中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口古钟。(2)U型分布与钟型分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,形成“两头大,中间小”的U型分布。(3)J型分布J型分布有两种类型:ー种是次数随着变量的增大而增多;另ー种呈反J型分布,即次数随着变量增大而减少。四、Excel在统计整理与统计图表中的应用编制分布数列编制分布数列的两种方法:
28①使用相关的函数(如Countif函数、Dcount数据库函数或Frequency函数)。②应用[直方图]分析工具。注意:[直方图]分析工具与Frequency函数在编制分布数列时,并不符合统计分组的“上限不在内”原则,在实际应用时必须进行调整。绘制统计图Excel可以绘制出各种各样的统计图形,如直方图、折线图、曲线图、饼图、散点图、雷达图等。注意:Excel中的图表类型与统计中的图表类型并不完全一样,如Excel中的“散点图”既包括了统计上的散点图,又包括了统计上的曲线图。
292.2课后习题详解ー、单项选择题统计调查对象是()。A.总体各单位标志值B.总体单位C.现象总体D.统计指标【答案】C【解析】统计调査对象是需要进行调查的社会经济现象的总体,它是由性质上相同的许多调查单位组成的。我国统计调査体系中,作为“主体”的是()。A.经常性抽样调査B.必要的统计报表C.重点调查及估计推算等D.周期性普查【答案】A【解析】统计调查体系是ー个国家开展统计调查方法和制度的总称。我国现行的统计调查体系是:以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分全面报表综合运用的统计调查方法体系。要对某企业生产设备的实际生产能力进行调查,则该企业的“生产设备”是()。A.调查对象B.调查单位C.调查项目D.报告单位【答案】A【解析】调查对象是指需要调查的现象总体,调查单位是指所要调查的具体单位,它
30是进行调查登记的标志的承担者。对于本题,该企业的所有生产设备为调査对象,而企业的每个生产设备为调查单位。与调查单位不同,报告单位是负责向上报告调查内容、提交统计资料的单位,它一般在行政上、经济上具有一定独立性。而调査单位可以是个人、企事业单位,也可以是物。根据不同的调查目的,两者有时一致,有时不一致。对于本题,报告单位是该企业。二、多项选择题下面哪些现象适宜采用非全面调査?()A,企业经营管理中出现的新问题B.某型号日光灯耐用时数检查C.某地区居民储蓄存款D.某地区森林的木材积蓄量【答案】ABCD【解析】统计调查按调查对象的范围不同,可分为:全面调查和非全面调査。全面调查是对构成调查对象的所有单位进行逐一的、无ー遗漏的调查,包括全面统计报表和普査:非全面调査是对调查对象中的一部分单位进行调查,包括非全面通缉报表、抽样调査、重点调查和典型调查等。非全面调查是对调查对象其中的一部分单位进行调査,以取得调查对象的一部分资料,用来推断总体或反映总体的基本情况。ABCD四项宜采用非全面调査法。抽样调査()。A,是ー种非全面调查B.是ー种非连续性的调查C.可以消除抽样误差D,应遵循随机原则【答案】ABD【解析】抽样调查是,ー种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的ー种调查方法。可分为概率抽样和非概率抽样。习惯上将概率抽样称为抽样调查。概率抽样是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算调查对象的总体特征。统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调査过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。洛伦茨曲线()。A,是ー种向下累计曲线
31B.可用于反映财富的分布曲线C.用以衡量收入分配公平与否D,越接近对角线基尼系数越大【答案】BC【解析】美国的洛伦茨博士把累计频数(或频率)分布曲线运用于研究社会财富、土地和エ资收入的分配是否公平,又称洛伦茨曲线,是ー种向上累计曲线。用实际收入分配曲线与绝对平等线所包围的面积对比总面积,计算基尼系数,以它衡量收入分配的平等与否。基尼系数值越小,即实际收入分配曲线越靠近绝对平等线,则收入分配越平等。三、分析判断题1.有人说抽样调查“以样本资料推断总体数量特征’’,其误差肯定比全面调查的误差大,你认为呢?答:这种说法不对。从理论上分析,统计上的误差可分为登记性误差、代表性误差和推算误差。无论是全面调查还是抽样调查都会存在登记误差。而代表性误差和推算误差则是抽样调查所固有的。这样从表面来看,似乎全面调查的准确性一定会高于统计估算。但是,在全面调查的登记误差特别是其中的系统误差相当大,而抽样调査实现了科学化和规范化的场合,后者的误差也有可能小于前者。我国农产量调查中,利用抽样调査资料估算的粮食产量数字的可信程度大于全面报表的可信程度,就是ー个很有说服カ的事例。过去统计报表在我国统计调査体系中占据统治地位多年,为什么现在要缩小其使用范围?答:统计报表制度是依照国家有关法规,自上而下地统ー布置,以一定的原始记录为依据,按照统一的表式、统ー的指标项目、统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的ー种调查方式。统计报表主要特点有:第一,报表资料的来源建立在各个基层单位原始记录的基础上,基层单位可利用其资料对生产、经营活动进行监督管理;第二,由于统计报表是逐级上报和汇总的,各级领导部门能获得管辖范围内的报表资料,了解本地区、本部门的经济和社会发展情况;第三,由于统计报表是属于经常性(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。但随着社会主义市场经济的发展,统计报表的局限性显现出来:统计调査单位变动频繁,再加上决策主体和利益主体的多层次化,各方面对统计数字真实性的干扰明显增加,从而影响统计数据的准确性;此外,统计报表的日常维持需要大量的人力、物力、财カ;而且统计报表的统计指标、指标体系不容易调整,对现代社会经济调査来说很不合适。因此,现在逐渐缩小其使用范围。对足球赛观众按男、女、老、少分为四组以分析观众的结构,这种分组方法合适吗?答:这种分组方法不合适。科学的统计分组应遵循两个原则:(1)符合“穷尽原则”,就是使总体中的每ー个单位都应有组可归,或者说各分组的空间足以容纳总体的所有单位;
32(2)遵守“互斥原则”,即总体任ー单位都只能归属于ー组,而不能同时或可能归属于几个组。本题所示的分组方式违反了“互斥性原则”,例如,一观众是少女,若按以上分组,她既可被分在女组,又可被分在少组。以ー实例说明统计分组应遵循的原则。答:统计分组应遵循的原则是穷尽原则和互斥原则。单位:%6294254102798128171610181424119设20个企业的产值利润率分别是:序号按产值利润率分組(*)企业数(个)10——109210208320——303具体分组如下:产值利润率的取值范围从〇〜30%,使20个企业都有组可归,这就遵循了分组的“穷尽原则其中有两个企业的产值利润率为10%,该数值同时作为相邻两组的临界值,统计上规定“上线不在内”,把这两个企业列在第2组,就遵循了“互斥原则”。四、计算题抽样调査某地区50户居民的月人均可支配收入数据资料如下(单位:元):88692899994695086410509279498521027928978816100091810408541100।90086690595489010069269009998861120893900800938864919863981916818946926895967921978821924651850要求:(可利用Excel)
33(1)试根据上述资料编制次(频)数分布和频率分布数列。(2)编制向上和向下累计频数、频率数列。(3)绘制直方图、折线图、曲线图和向上、向下累计图。(4)根据图形说明居民月人均可支配收入分布的特征。解:(1)编制次(频)数分布和频率分布数列如表2-1所示。表2-1次(频)数分布和频率分布数列表—次(频)数频率(%)居民户月消费品支出额(元)800以下800-850850-90()900-950950-10001(XX)-10501050-1100110()以上141218841228243616824合计50100.(X)(2)编制向上和向下累计频数、频率数列如表2-2和表2-3所示。表2-2居民的月人均可支配收入向上累计表—向上累计向上累计频率(%)居民的月人均可支配收入上限(元)80012850510900173495035701(X)043861050479411004896115050100表2-3居民的月人均可支配收入向下累计表.i向下累计频数向下累计频率(%)居民的月人均可支配收入下限(元)6008008509009501000105011005049453315732100989066301464(3)绘制向上、向下累计图如图2-2和图2-3所示。
34图2-2向上累计图图2-3向下累计图(4)主要操作步骤:①次数和频率分布数列输入到Excel。②选定分布数列所在区域,并进入图表向导,在向导第1步中选定“簇状柱形图’’类型,单击“完成’’,即可绘制出次数和频率的柱形图。③将频率柱形图绘制在次坐标轴上,并将其改成折线图。主要操作步骤:在“直方图和折线图”基础上,将频率折线图改为“平滑线散点图”即可。
352.3考研真题与典型习题详解ー、单项选择题在ー项化妆品市场调查中,考虑到男女性别对化妆品的要求有所不同,抽样时分别从男性和女性消费者中独立地随机抽取相同比例的人数作样本,这种抽样方式是()。[中央财经大学2014研]A,简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】B【解析】分层抽样是先将总体的单位按某种特征分为若干级次层,然后再从每ー层内进行单纯随机抽样,组成一个样本。调查中先将总体按性别分为两层,再从这两层内独立随机抽取,为分层抽样。样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的()。[东北财经大学2013研]A.25%B.40%C.50%D.75%【答案】C【解析】下四分位数是指处在25%位置上的数值,上四分位数是指处在75%位置上的数值。因此样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的50%。在整群抽样中,各群间为抽样调査,群内为全面调査,故影响抽样平均误差的是()〇[四川大学2013研]A.群间方差B.群内方差C.总体方差
36D.协方差【答案】A【解析】在整群抽样时,总体方差分为群内方差和群间方差两部分,由于在总体各群间进行随机抽样,使得抽样平均误差由群间方差的大小来决定,对被抽中的群进行全面调查所以不存在抽样误差即群内方差不影响抽样误差。下列各项中存在抽样误差的调查方式是()。[首都经济贸易大学2013研]A.方便抽样B.普查C.概率抽样D,判断抽样【答案】C【解析】抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差只存在于概率抽样中。用样本资料推断总体资料不可避免要产生()。【四川大学2013研]A.登记性误差B.实际性误差C.代表性误差D,主观性误差【答案】C【解析】代表性误差又称抽样误差,主要是指在用样本数据向总体进行推断时所产生的随机误差。从理论上讲,这种误差是不可避免的,但它是可以通过计算得出并且加以控制的。某市场调查公司为了对一家大型商场做顾客满意度调查,对不同性别和年龄的顾客按事先规定的人数随意进行了一些调查询问,这种调查属于()。[中央财经大学2012研]A.任意调查B.立意调查C,配额抽样D.整群抽样【答案】A【解析】任意抽样又称为便利抽样或偶遇抽样,它是任由调查者的便利而随意选取ー些个体作为样本。立意抽样又称判断抽样,是指根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。配额抽样也称定额抽样,是指调查人员将调査总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽
37选样本的抽样方式。整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的ー种抽样方式。若连续变量分组,第一组45〜55,第二组55〜65,第三组65〜75,第四组75以上。则()〇[江苏大学2012研]A.45在第一组B.55在第一组C.65在第二组D.75在第三组【答案】A【解析】绘制频数分布表,在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。为了了解顾客对商场的满意度,在该商场门口访问了100位顾客,所调查的数据是()〇[首都经济贸易大学2011研]A.一手资料B.实验数据C.次级资料D,间接数据【答案】A【解析】统计调査的数据一般称为观测数据,属于一手资料。CD项表述的是同一个意思,间接数据属于二手资料。将全部变量值依次划分为若干个区间,并将这一区间的变量值作为ー组,这样的分组方法称为()。[南京财经大学2011研]A.单变量值分组B.组距分组C.等距分组D,连续分组【答案】B【解析】数据分组的方法有单变量值分组和组距分组两种。单变量值分组是把每ー个变量值作为ー组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。组距分组是将全部变量值依次划分为若干个区间,并将一个区间的变量值作为ー组,在连续
38变量或变量值较多的情况下通常采用组距分组。在组距分组时,如果各组的组距相等,则称为等距分组。如果各组的组距不相等,则称为不等距分组。雷达图的主要用途是()。[浙江工商大学2()11研]A.反映一个样本或总体的结构B.比较多个总体的构成C.反映一组数据的分布D.比较多个样本的相似性【答案】D【解析】雷达图在显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。在纯随机不重复抽样的情况下,调查了全及总体的5%,其抽样误差比纯随机重复抽样小()。[江苏大学2011研]A.2.53%B.5.0%C.50%D.95%【答案】A【解析】在重置抽样时,样本均值的抽样标准误为:五,在不重置抽样时,样本均值的标准误为:G=Cドー“,あ、N-1其中N-1为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,N比较大而唄セ5%时,修正系数可以简化为(レ也り,当N比较大而"/“<5%时,修正系数可以近似为1,即可以按重置抽样计算。所以不重复抽样的抽样误差比重复抽样多了一个系数为(〜网。即抽样误差比纯随机重复抽样小"732530°为调查某地区男性所占比例,从该地区随机重复抽取ー个容量为100的人口样本,该样本中男性比例为55%,则男性比例的抽样平均误差为()。[江苏大学2011研]A.0.245B.0.0497C.0.4975
39A.0.5500【答案】B【解析】在重置抽样时,样本均值的抽样平均误差为:%=c/石=[px(l_p)/板=70.55x0,45/^〇〇=0.0497某政府机构想尽快了解社会公众对其出台的ー项政策的态度,最恰当的数据搜集方式是()〇[中央财经大学2011研]A.面访B.深度访谈C.计算机辅助电话调查D.邮寄调查【答案】C【解析】计算机辅助电话调査是利用现代化电脑程控通讯设备进行的随机电话访问方式,采用这种访问调查方式,具有调查内容客观真实、保密性强、访问效率高等特点〇A项,面访即调查者直接走访被调查者,当面听取被调查者的意见,形式上可以个别面谈,也可以小组座谈,面访比较全面、深入,能获得大量真实的研究资料,但这种方法容易使研究结论带有主观成分;B项,深度访谈是ー种无结构的、直接的、ー对一的访问形式;D项,邮寄调查法,是指将事先设计好的调查问卷,通过邮政系统寄给被调查者,由被调查者根据要求填写后再寄回,是市场调查中一种比较特殊的调查方法。某外商投资企业按エ资水平分为四组:1000元以下,1000-1500元;1500-2000元;2000元以上。第一组和第四组的组中值分别为()。[首都经济贸易大学2009研]A.750和2500B.800和2250C.800和2500D.750和2250【答案】D【解析】根据开口组组距与相邻组组距相同均是500,以及第一组的上限是1000,第四组的下限是2000,可得:第一组的组中值=1000-500+2=750第四组的组中值=2000+500+2=2250统计分组的核心问题是()。[西安交通大学2006研]
40A.选择分组方法B.确定组数C.选择分组标志D.确定组中值【答案】C【解析】分组标志作为现象总体划分为各个不同性质的组的标准或根据,选择的正确与否,关系到能否正确地反映总体的性质特征、实现统计研究的目的任务。某餐厅为了解顾客对餐厅的意见和看法,管理人员随机抽取了50名顾客,上门通过问卷进行调查。这种数据的收集方法称为()。A.观察式调查B.实验调查C.面访式问卷调査D,自填式问卷调査【答案】C【解析】面访式是指现场调査中调査员与被调查者面对面,调査员提问、被调查者回答的调查方式。抽样调査与重点调查的主要区别是()。A.作用不同B.组织方式不同C,灵活程度不同D.选取调查单位的方法不同【答案】D【解析】抽样调查与重点调查的主要区别是选取调查单位的方法不同。抽样调查属于概率抽样调查,是按照随机原则从总体中抽取样本,并根据调查取得的样本资料推算总体目标量的调查方式:重点调查属于非概率抽样调查,它是在所要调查的总体中选择ー部分重点单位进行的调査,由于不是按照随机原则抽取样本,调查结果一般不用于推断总体数量特征。二手数据的特点是()。A.搜集方便、数据采集快、采集成本低B.采集数据的成本低,搜集比较困难
41C.数据可靠性较好D,数据的相关性较好【答案】A【解析】二手数据是指与研究相关的原信息已经存在,只是对原信息重新加工、整理,使之成为进行统计分析可以使用的数据。二手数据具有搜集方便、数据采集快、采集成本低等优点,但是得到的数据往往缺乏相关性。划分全面调查与非全面调査的标志是()。A.资料是否齐全B.调查单位是否为全部C.调查时间是否连续D.调查项目是否齐全【答案】B【解析】统计调査按被研究总体所包括范围的不同,可分为全面调查和非全面调査:前者是对被研究总体的所有单位ーー进行调査;后者是选取被研究现象总体中的一部分单位进行调査。二、多选题下面抽样方式中,属于非概率抽样的有()。[西安交大2007研]A,方便抽样B.滚雪球抽样C.配额抽样D.多阶段抽样E.自愿样本【答案】ABCE【解析】非概率抽样包括方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。D属于概率抽样。经济普查是()。[首都经贸2006研]A.专门调查B.一次性调查C.全面调查D.非全面调査【答案】ABC【解析】普査是专门组织的ー种全面调査,它主要用以搜集某些不能或不宜用定期
42报表搜集的统计资料。三、简答题何谓概率抽样?试举例说明其包括的主要抽样组织形式。[首都经济贸易大学2013研]答:概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。调查的实践中经常采用的概率抽样方式有以下几种:(1)简单随机抽样。简单随机抽样指从包括总体N个单位的抽样框中随机地、一个ー个地抽取n个单位作为样本,每个单位入样的概率是相等的。(2)分层抽样。分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。(3)整群抽样。整群抽样是指首先将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调査。(4)系统抽样。系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取ー个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。(5)多阶段抽样。采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进ー步抽样,从选中的群中抽取出若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样;这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。简述影响样本容量(或抽样数目)的因素。[四川大学2013研]答:(1)在抽样调查中,影响样本容量的因素有以下几方面:①总体的变异程度(总体方差);②允许误差的大小;③概率保证度ト。的大小;④抽样方法不同;⑤抽样组织方式。(2)从定性的方面考虑样本量的大小,其考虑因素有:①决策的重要性;②调研的性质;③变量个数;④数据分析性质;⑤资源限制等。具体而言,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本容量;探索性研究,样本量一般较小,而结论性研究如描述性的调査,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。在调查某个县城的家庭年平均收入时,能否只在该市的娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行随机抽样?原因是什么?能否只在该市的公共汽车站进行随机抽样?原因是什么?[首都师范大学2012研]答:随机抽样也称概率抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的
43机会被选入样本。在调查某个县城的家庭年平均收入时,不能只在该市的娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行随机抽样。抽样框选择的不合理,只在娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行随机抽样,抽选的样本是收入较高的ー层,不具有代表性。只在该市的娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行抽样没有保证该县城中每个人被抽中的机会均等。故不能用所抽的样本对总体目标量进行估计。也不可只在该市的公共汽车站进行随机抽样,只在该市的公共汽车站进行随机抽样仍然是抽样框选择不合理。这样选择的样本只针对经常坐公共汽车的人群,而忽略了乘坐其他交通工具和不乘坐交通工具的人群。所得结果仍然不合理。简述如何进行统计分组。[中南财经政法大学2004研]答:统计分组的方法有单变量值分组和组距分组两种。单变量值分组是把每ー个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用。在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为ー组。分组具体步骤如下:第1步:确定组数。第2步:确定各组的组距。一般情况下.ー组数据所分的组数不应少于5组且不多于15组,即把KS5。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。采用组距分组时,需要遵循“不重不漏”的原则。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内’’的规定解决“不重’’的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后ー组可以采取“xx以下,,及“xx以上”这样的开口组。开口组通常以相邻组的组距作为其组距。
44简述概率抽样与非概率抽样的区别。答:(1)概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调査。(2)概率抽样与非概率抽样的区别:概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所要的样本量。而非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。五、计算题表2-4是某考试管理中心对2013年参加成人自学考试的12000名学生的年龄分组数据。表2-4成人自学考试学生的年龄分组表年龄(岁)18-192〇〜2122-2425-2930-3435-3940—4445-59%1.934.734.117.26.42.71.81.2要求:(1)对这个年龄分布作直方图。(2)从直方图分析成人自学考试人员年龄分布的特点。4O353O2S2OISIO5O・“6S334メURla67*技年龄分帆解:(1)绘制成人自学考试年龄分布的直方图,如图2-4所示图2-4成人自学考试年龄分布的直方图(2)从直方图可以清楚地看出,成人自学考试人员年龄的分布为右偏,也就是年龄在2()〜24
45岁的人占绝大比例,而年龄在40岁以上的人所占的比例很小。某家商场为了了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。其学历表示为:1:初中,2:高中或中专,3:大专,4:本科及以上。调査结果如表2-5所示。1222434414224443242231214414242332134344331242432423222122442123333331234331323243134342142212334121表2-5调查结果表(1)表2-5中的数据属于什么类型?(2)制作ー张频数分布表。(3)绘制ー张条形图,反映顾客的学历分布。(4)绘制评价等级的帕累托图。解:(1)表2-5中的数据属于顺序数据。(2)制作频数分布表,如表2-6所示。按照学历分娘父獵(人)要率(%)初中1313.00高中或屮专3131.00大专2727.00本科及以上2929.00合计100100.00表2-6频数分布表(3)绘制条形图,如图2-5所示。
46图2・5条形图学历(4)绘制评价等级的帕累托图,如图2-6所示。图2-6帕累托图
47第三章数据分布特征的描述3.I复习笔记ー、统计变量集中趋势的测定测定集中趋势的指标及其作用(1)两大类指标①数值平均数:是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数。②位置代表值:是根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。(2)作用①反映变量分布的集中趋势和一般水平。②可用来比较同一现象在不同空间或不同阶段的发展水平。a.可以消除因总体规模不同而带来的总体数量差异,使不同规模的总体水平具有可比性。b.可以在一定程度上使偶然因素的影响相互抵消,用以比较现象在不同总体之间的水平差异或说明现象发展变化的趋势和规律性。③可用来分析现象之间的依存关系。④平均指标也是统计推断中的ー个重要统计量,是进行统计推断的基础。2.数值平均数(1)算术平均数也称均值,是将一组数据的总和除以这组数据的项数所得的结果,最为常用。具体计算方法包括:①简单算术平均数
48对于未分组的数据,若以モ表示第i项数据('=12…ノ),x表示这〃项数据的平均数,则计算公式为:
49②加权算术平均数对于分组数据,若以る表示第i组的变量值1=L4,"),£表示第i嚏=x/+モエー…+xj:=ぶ通常简记为已ェ+厶+…+んミ/>1Z/组的频数,则计算公式为:注意:a.分组数据中,各组频数就是权数,加权算术平均数的数值不仅受各个变量值大小的影响,也要受权数大小的影响。b.权数也可以用比重形式(如频率)来表示,比重权数更能够直接表明权数的权衡轻重作I=y.キj也可简记为刀=yxg/用的实质。因为影响作用的轻重或贡献的大小本来就是相对而言的。其计算公式为:③由组距数列计算算术平均数运用该方法需注意:用各组组中值代表各组实际数据的水平,其假定条件是各组内的数据呈均匀分布或对称分布;由组距数列计算的平均数一般只能是近似值。④对相对数求算术平均数在对一系列相对数进行平均时,由于各个相对数的对比基础不同,采用简单算术平均通常是不合理的,需要进行适当的加权。总体的相对数等于各组相对数的加权算术平均数,其权数为该相对数的分母指标。⑤算术平均数的主要数学性质a.算术平均数与变量值个数的乘积等于各个变量值的总和,即该性质表明:算木平均数可以用来推算相应的总量;当各个变量值相加的总和有意义时,求这些变量值的平均数就适合用算术平均数。
50£(キー@=ob.各变量值与算术平均数的离差之总和等于零,即该性质表明:算术平均数是ー组数据的重心,它是将各个数据的差异抽象掉之后用来代表变量的一般水平、说明ー组数据分布的中心位置的代表值。Z(そー,=min亦即士(X;-ザ<£(X一七)'C.各变量值与算术平均数的离差平方之总和为最小。为中心所得到的离差平方总和,即其中え为其他任一数值。该性质表明:若以离差平方来衡量各个变量值与数据分布中心的差异,算术平均数作为数据一般水平和中心位置的代表值是最理想的。(2)调和平均数调和平均数是数据倒数的算术平均数的倒数,用符号ら表示。社会经济现象中应用的调和平均数通常是加权算术平均数当其分母未知时的变形,ゝ…一天セ%大毛/+叫+…+て其计算公式为:其中,‘表示各变量值’对应的权数。当,全部相等时,加权调和平均数简化为简单调和平均数。
51(3)几何平均数①定义:几何平均数(geometricmean)是n个变量值连乘积的〃次方根,分为简单几何平均数和加权几何平均数两种形式,用符号れ%=衿セ…一x"二扣と表示。其计算公式为:若各个变量值セ对应的权数£1=12…,ん)不尽相同,则计算公式为:②适用场合:主要用于对具有环比性质的比率求平均以及计算现象的平均发展速度。2.众数与中位数(1)众数①定义:众数(mode)是ー组数据中出现频数最多、频率最高的变量值,常用Mo表示。②众数的作用:不仅可以度量定量变量(数值型数据)的集中趋势,也可以用来测度定性变量(非数值型数据)的集中趋势。③众数的确定a.可根据分组数据或分布图形直接观察而得,但在组距数列中较为麻烦。b.在组距数列中需要先找到众数组,然后根据众数组次数与其相邻两组次数的关系来近似推算众数的具体数值,其近似公式为:下限公式上限公式其中,“。表示众数,上、レエ、ム,分别代表众数组的下限、上限和组距,d为众数组次数与其前ー组的次数差,よ为众数组次数与其后ー组的次数差。
52(2)中位数①定义:中位数(median)是将数据由小到大排列后位置居中的数值,常用Me表示。②中位数的确定a.对于未分组资料,如果数据项数是奇数,则正好位于中间的数值就是中位数;如果数据项数是偶数,则取居中两个数值的平均数作为中位数。b.对于组距数列,需先找到中位数组,即中间位置(用2来计算)所在的组。然后根据中位数组内次数均匀分布的假定,近似推算中位数,其近似公式为:下限公式上限公式其中,”.表示中位数,ム,、じ凡、du.和ん.分别代表中位数组的下限、上限、组距和次数,代表变量值小于中位数组下限的各组次数的累计数,Smt代表变量值大于中位数组上限的各组次数的累计数。注意:测度数据在特定位置上的水平,还可计算四分位数、十分位数和百分位数。与中位数计算原理相类似,它们是将数据由小到大排序后,分别位于全部数据1/4、1/10和レ100位置上的数值。(3)众数、中位数和算术平均数三者的性质比较①算术平均数是数值平均数,是利用全部数据加总来计算的平均数,综合反映了全部数据的信息。众数和中位数都是根据数据分布的特定位置所确定的集中趋势测度值,它们不能充分概括全部数据的信息。②算术平均数和中位数在任何一组数据中都存在而且具有唯一性,但并不是所有数据都存在众数,而且众数也不具有唯一性。计算和应用众数有两个前提:a.数据项数众多。众数一般用于描述总体,若用于描述样本,数据项数必须充分多,而且次
53数最多的值会很不稳定。b.数据具有明显的集中趋势。如果次数的差别不大,也就无所谓哪个值更具有普遍意义和代表性。③算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据,即对定性数据和定量数据都适用。④算术平均数要受数据中极端值的影响,而众数和中位数都不受极端值的影响。当数据分布偏斜程度较大(一端有极端值)时,不宜用算术平均数来代表一般水平。为排除极端值干扰,可计算切尾算术平均数(切尾均值)。⑤算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。(4)众数、中位数和算术平均数三者的数量关系对于呈现单峰分布特征的数据:如果数据的分布是对称的,则有*=〇;如果数据呈左偏(负偏)分布,则有7<ゝ/,<“。,反之亦然;如果数据呈右偏(正偏)分布,则有la)左偏(负偏)分布(b)对称件型分布(0右偏(正偏)分布ヌ。三者关系如图3-1所示:图3-1英国统计学家皮尔逊住ア卬「"")提出了一个经验公式:在数据分布呈轻微偏态时,三者之间的近似为:二、统计变量离散程度的测定1.测定离散程度的指标及其作用(1)测定离散程度的指标及分类①离散程度说明数据之间差异程度的大小,测度离散程度的指标称为变异指标。②常用的变异指标主要有两类:ー类是用绝对数或平均数表示的,主要有极差、四分位差、平均差、标准差等,这类变异指标的计量单位与数据的计量单位相同;另ー类是用相对数表示的,主要有离散系数、异众比率等,是没有量纲的比率。(2)变异指标的作用
54①说明数据的离散程度,反映变量的稳定性、均衡性。数据之间差异越大,说明变量的稳定性或均衡性越差。反之,说明变量的稳定性或均衡性越高。②衡量平均数的代表性。数据分布越分散、离散程度越大,平均数的代表性就越小;反之,平均数的代表性就越大。③在统计推断中,变异指标常常还是判别统计推断前提条件是否成立的重要依据,也是衡量推断效果好坏的重要尺度。1.极差、四分位差和平均差(1)极差①定义:极差(range)是ー组数据的最大值(マな)与最小值(/M)之差,通常用於表示。对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距或范围«其计算公式为:&=胃口一/出。②适用场合:极差一般只对未分组数据或单项数列计算。对于组距数列,极差只能根据最高水平组的上限减去最低水平组的下限来近似计算。③优点:最简单的变异指标,计算简便、含义直观、容易理解。④缺点:它只利用了最大和最小两个尾端的信息,未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。因此在实际中极差的应用并不多。(2)四分位差①定义:四分位差(quartiledeviation)是第3四分位数(2)与第1四分位数(0)之差,常用心表示。四分位差越大,表示数据离散程度越大,其计算公式为:0=。ド。1。②适用场合:属于一种顺序统计量,适用于定序数据和定量数据,尤其是当用中位数来测度数据集中趋势时,对应的离散程度特别适合用四分位差来描述。③优点:是对极差的改进,避免了极端值的干扰。当ー组数据中极端值较突出时,可采用四分位差来反映数据的离散程度。④缺点:它仍然只利用了两个位置的信息,并没有考虑全部数据的差异情况,因此它对数据差异的反映也是不够充分的。(3)平均差①定义:平均差(averagedeviation)是各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以バQ
55Ekーマ表示。根据未分组数据计算的平均差,是离差绝对值的简单算术平均数,其计算公式为Ekー赤.3上ー——根据已分组数据计算的平均差,是离差绝对值的加权算术平均数,其计算公式为②优点:含义清晰,计算结果容易理解,与极差、四分位差相比,平均差是利用全部数据信息计算的变异指标,所以它能够全面地概括反映数据之间的离散程度。③缺点:平均差为了避免离差正负抵消而取离差绝对值进行平均,这种形式使得数学处理上不够方便,同时在数学性质上也不是最优的。在统计实践中,其应用并不多见。1.方差和标准差(1)方差和标准差的计算①方差是各个数据与其均值的离差平方的算术平均数。总体方差通常以び表示,其计算公式为:a.未分组数据注意:样本方差(通常用ズ表示)的计算公式略有差别,这是因为样本方差作为总体方差的估计量,为了满足估计量无偏性的要求,计算公式中分母就不能用n而应为(n-1)。b.已分组数据②方差的算术平方根即为标准差。总体标准差一般用び表示。其计算公式为:nZ(x-x)ホ
56a.未分组数据_ミ(演臼’£ぴ=病=j=i_^1铝b.已分组数据③比较:两者用于测度数据的离散程度其作用实质上是一致的,但标准差的计量单位与所测度数据的计量单位相同,计算结果的实际意义要比方差更容易理解。在实际统计分析中,标准差比方差应用更为普遍,常被用作测度数据与均值差距的标准尺度。方差和标准差的数值越大,说明变量的变异程度越大;反之,数据越集中。④优点:两者都是根据全部数据计算的,能够充分利用全部数据的差异信息,全面反映出数据的离散程度。由于对离差取平方进行计算,标准差对较大偏差的反映更为灵敏,一般情况下(当大多数离差绝对值大于1时),根据同一组数据计算的标准差要比平均差大些。(2)方差的主要数学性质%:=0①常数的方差等于零。设。为常数,则有:②变量的线性函数的方差等于变量系数的平方乘以变量的方差。设・6为常数,…+以,则有:ガダ③分组条件下,总体的方差等于组间方差(。ユ)与各组组内方差的平均数(チ)之和,即ゴ=w—
57组内方差平均数(び,和组间方差(の)的计算公式分别为:JI:-1其中,テ为总体平均数,エ、ゴ和/分别为第i组("12…》)的平均数、方差和数据个数。(3)标准化值对于来自不同均值和标准差的个体的数据,往往不能直接对比,需要将数据进行标准化,转化为同一规格、尺度的数据后再比较,即将数据转换为标准化值(或标准得分)。标准化值一般用Z表示,也称z值,其计算公式为:注意:标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个个体的数据转换为其在总体中的相对位置。标准化值的比较只有相对意义,没有绝对意义。(4)对称钟型分布中的3び法则①对称钟型分布的特点:数据分布以均值为中心两边对称,且中间数据出现的频数多而两尾出现的频数少。②对称钟型分布的相关结论:a.大约68%的数据分布在均值左右1个标准差的范围内;b.大约95%的数据分布在均值左右2个标准差的范围内;c.大约99%的数据分布在均值左右3个标准差的范围内。通常将落在区间自ー3c,マ-3口之外的数据称为异常数据或称为离群点,这是统计上很重要的3び法则。如图3-
582所示:图3・2注意:社会经济现象和自然技术现象中,许多变量的分布都呈近似的对称钟型分布。通常可利用上述结论来估计落在均值マ左右一定区间内的数据个数所占百分比。1.离散系数(1)定义:离散系数(coefficientofvariation)也称为变异系数,是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称之为标准差系数,常用乙表示,即离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之,其平均数的代表性就强。(2)适用场合:对不同变量(或不同数据组)的离散程度进行比较时,当它们的平均水平和计量单位不相同时,须将平均水平或计量单位的差异抽象掉,利用离散系数来比较它们的离散程度。5,异众比率(1)定义:异众比率(variationratio)是指非众数值的次数之和在总次数中所占比重,其值越小,说明数据的集中程度越高,众数的代表性越大;反之,众数的代表性越小。可用レス表示,其计算公式为:其中',代表总次数;ん代表众数值的次数。(2)作用及适用范围:异众比率主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表ー组数据一般水平的代表性。主要适用于测定定性变量的离散程度,也可以用于测定定量变量(数值型数据)的离散程度。三、变量分布的偏度与峰度
59ロ矩(1)定义:矩也称为动差,原是物理学术语,统计学上常用它来刻画数据分布特征。我£ほー。)ソ们将所有变量值与数值。之离差的K次方的平均数称为变量x关于。的K阶矩,即①K阶原点矩:当a=0时的K阶矩,是数据的K次方的平均数,其公式为:
60zz其中,眞、.分别为各组变量值及其对应的权数。注意:ー阶原点矩即算术平均数,二阶原点矩即平方平均数。②K阶中心矩:当。=テ时的K阶矩,即以均值为中心计算变量的离差的K—£叫二上JZZ次方的平均数,记为%,其公式为:注意:当时,称为ー阶中心矩(ー阶中心动差),它恒等于〇,即!当时,称为二阶中心矩(二阶中心动差),也就是方差,即啊=b。2.偏度(1)定义:偏度(S妬“ルむ)是指数据分布的不对称程度或偏斜程度。偏态分布又分左偏(亦称为负偏)和右偏(亦称为正偏)两种。(2)偏度的测度①利用算术平均数、中位数和众数三者之间的关系来测度:若数据分布是对称时,三者相等:若分布是偏态,三者不相等;偏态越严重,三者差距就越大。モ二丝:a②利用均值、众数及标准差来测度,其公式为:该方法测度偏态最为简单,其数值一般应在ー3〜〇及〇〜+3之间。数值为0表示对称分布,-3表示极左偏态,+3表示极右偏态。③利用分位数来测度。若为对称分布,第1四分位数。1与第3四分位数2是关于中位数对称的。根据分位数的性质,可利用左右两侧的分位数与中位数之间的距离来测度偏态的方向和偏态程度,即
61(。3-M)-(Mー纟)_Q+。ー2MQ3-Q1Qi~Q\该式计算的数值在(-1,+1)的范围内变动。SK噜④利用中心矩计算偏度系数来测定偏度,该方法最常用。偏度系数(SK)的计算公式为:判断标准:如果ー组数据的分布是对称的,则SK=O;如果ー组数据的分布是左偏(负偏)的,则SK<0;如果一组数据的分布是右偏(正偏)的,则夂>0。偏斜程度越严重,SK的绝对值越大。3.峰度(1)定义:峰度(kurtosis)是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。一般将峰度分为正态峰度、尖顶峰度和平顶峰度三种。当变量分布曲线比正态分布曲线更加尖峭、更高更窄,称为尖顶峰度;当变量分布曲线比正态分布曲线更为平缓、更低更扁平顶分布迷<«>平,称为平顶峰度,如图3-3所示:图3-3(2)峰度的测度:利用偶数阶中心矩计算峰度系数来测定峰度,峰度系数(用K表示)犬=±3的计算公式为:
62判断标准:当K=0时,分布曲线为正态曲线;当K>0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭;当时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分布曲线之顶端越平坦。四、利用Excel计算描述统计指标在计算描述统计指标时,Excel提供了以下两种方法:1.利用[描述统计】分析工具,该工具适用于未分组的原始数据;2.利用Excel的公式功能与相关的统计或数学函数,该方法既适用未分组的原始数据,又适用于分组数据。
633.2课后习题详解ー、单项选择题由变量数列计算加权算术平均数时,直接体现权数的实质的是()。A.总体单位数的多少B,各组单位数的多少C.各组变量值的大小D.各组频率的大小【答案】D【解析】权数是指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。加权算术平均数的数值不仅受各个变量值大小的影响,也要受权数大小的影响。由变量数列计算加权算术平均数时,各组频数就是权数,这是因为各组的频数大小衡量着对应的各组变量值对总体平均数的影响作用大小。频数大的变量值对总体平均数的影响较大,反之,则较小。2.若你正在筹划一次聚会,想知道该准备多少瓶饮料,你最希望得到所有客人需要饮料数量的()。A.均值B.中位数C.众数D.四分位数【答案】A【解析】算术平均数是数值平均数,即它是利用全部数据加总来计算的平均数,综合反映了全部数据的信息。算术平均数可以推算总体的有关总量指标,例如,根据居民人均消费量推算居民消费总量,而中位数和众数则不宜用作此类推算。本题中,通过饮料数量的均值及客人的数量,即可推断所需饮料的总数。3.2004年某地区甲、乙两类职エ的月平均收入分别为1060元和3350元,标准差分别为230元和680元,则职エ平均收入的代表性()。A,甲类较大B.乙类较大
64C.两类相同D,在两类之间缺乏可比性【答案】B【解析】甲的离散系数1060,乙的离散系数・3350,匕〉匕,所以乙类职エ的代表性大。假如学生测验成绩记录为优、良、及格和不及格,为了说明全班同学测验成绩的水平高低,其集中趋势的测度()。A.可以采用算术平均数B.可以采用众数或中位数C,只能采用众数D.只能采用四分位数【答案】B【解析】算术平均数是数值平均数,即它是利用全部数据加总来计算的平均数,综合反映了全部数据的信息。众数、中位数和四分位数都是根据数据分布的特定位置所确定的集中趋势测度值。算术平均数只能用于定量(数值型)数据,中位数、四分位数适用于定序数据和定量数据,众数对所有形式的数据(定性数据和定量数据)都适用。本题中测验成绩的记录结果为定性数据,所以B项正确。ー组数据呈微偏分布,且知其均值为510,中位数为516,则可推算众数为()。A.528B.526C.513D.512【答案】A【解析】英国统计学家皮尔逊(K.Pearson)提出了一个经验公式:在数据分布呈堡微偏态时エ算术平均数和众数、中位数三者之间存在如下的近似关系:了一M由此可得众数=528。当分布曲线的峰度系数小于0时,该分布曲线称为()。A.正态曲线B,尖顶曲线C.平顶曲线D.U型曲线
65【答案】C【解析】峰度(kurtosis)是变量分布的另ー个重要特点,是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。对峰度的度量通常以正态分布曲线为比较标准,一般将峰度分为正态峰度、尖顶峰度和平顶峰度三种。当K=0时,分布曲线为正态曲线;当K>0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;当时,为平顶曲线,表示数据比正态分布更分散。二、判断分析题有人调查了456位足球运动员某年的收入,发现他们的年收入以24.7万元为分布中心,但超过24.7万元的只有121人。试问,这里的24.7万元指的是哪ー种集中趋势指标?球员收入分布呈什么形状?为什么?答:均值。因为超过24.7万元的只有121人,不足一半,可知24.7不是中位数,也不是众数,均值高于中位数和众数,而只有较少的数据高于均值,所以数据呈右偏分布,存在极大值。2.任意ー个变量数列都可以计算其算术平均数、中位数和众数,并用以衡量变量的集中趋势吗?答:任意ー个变量数列都可以计算算术平均数和中位数,但可能无法计算众数,同样,算术平均数和中位数可以衡量变量集中趋势,但是众数有时则不能。因为有时有两个众数有时又没有众数。设ー组数据的均值为100,标准差系数为10%,四阶中心矩为3480〇,是否可认为该组数据的分布为正态分布?答:可计算出总体标准差=100xl0%=10,总体方差为100,于是峰度系数K=34800/10000=3.48,可以认为总体呈现非正态分布。峰度系数长==一3=^^-3=0.48ザ!04>0,属于尖顶分布,所以不能认为该组数据的分布为正态分布。某段时间内三类股票投资基金的年平均收益和标准差数据如表3-1所示。表3-1三类股票投资基金的年平均收益和标准差股票类别平均收益率(%)标推弟(%)A5.632.71B6.944.65C8.239.07
66根据上表中平均收益和标准差的信息可以得出什么结论?假如你是ー个稳健型的投资者,你倾向于购买哪ー类投资基金?为什么?答:平均收益率和标准差值来看,C类股票投资基金的收益率最高,但标准差最大,即证券自身的波动最大,投资风险最高。B类股票投资基金的收益率和投资风险居中,A类股票投资基金的收益率最小,其自身的波动性最小,投资风险最低。计算三类股票基金的标准差系数:V.=ニー=0.48股票A平均收益的标准差系数'5.63;v=4竺=067股票B平均收益的标准差系数06.94;y=‘〇,=]]〇股票C平均收益的标准差系数c8.23•。,可知C类的投资风险亦是最大。因此A类股票适合于保守型投资者,C类股票适合于激进型投资者,而B类股票更适合于稳健型的投资者。一般说来,ー个城市的住房价格是高度偏态分布的,为了了解房屋价格变化的趋势,应该选择住房价格的平均数还是中位数?如果为了确定交易税率,估计相应税收总额,又应该作何种选择?答:当数据分布偏斜程度较大(一端有极端值)时,不宜用算术平均数来代表数据的一般水平,算术平均数会数据中极端值的影响,而众数和中位数都不受极端值的影响。该市的住房价格呈高度偏态分布,为了了解房屋价格变化的走势,宜选择住房价格的中位数来观察。算术平均数可以推算总体的有关总量指标,例如,根据居民人均消费量推算居民消费总量,而中位数和众数则不宜用作此类推算。所以如果为了确定交易税率,估计相应税收总额,应利用均值。某企业员エ的月薪在1000到4000元之间。现董事会决定给企业全体员エ加薪。如果给每个员エ增加200元,则:(I)全体员エ薪金的均值、中位数和众数将分别增加多少?(2)用极差、四分位差、平均差和方差、标准差分别来衡量员エ薪金的差异程度,加薪前后各个变异指标的数值会有什么变化?(3)加薪前后员エ薪金分布的偏度和峰度有无变化?(4)如果每个员エ加薪的幅度是各自薪金的5%,则上述三个问题的答案又有什么不同?答:(1)均值增加200元。
67可得,中位数与众数也分别增加200。(2)均不变。对于方差N,可知薪金增加后不影响方差及标准差的变化;对于平均差-V,可知薪金增加后不影响平均差的变化,易知可知极差、四分位差也未变化。(3)均不变。偏度系数(SK)由变量的三阶中心矩吗与其变准差的三次方之比而得,即峰度系数(K)由变量的四阶中心矩ル4与其标准差的四次方之比而得,即易知偏度系数及峰度系数无变化。(4)每个员工薪金增加5%后:①全体员エ薪金的均值、中位数和众数将分别变为原来的1。5倍;
68②极差、四分位差、平均差和标准差将分别变为原来的1.05倍,方差变为原来的1.1025倍;③偏度和峰度无变化。三、计算题某公司下属两个企业生产同一种产品,其产量和成本资料如表3-2所示。基期报吿期冷位成本(元)产・(吨)単位成本<7C>产量(吨)甲企业60012006002400乙企业70018007001600表3-2甲、乙企业的产量和成本表试分别计算报告期和基期该公司生产这种产品的总平均成本,并用上述数据说明总平均成本变化的原因。600x1200+700x1800解:基期总平均成本=1200-1800=660(元)600x2400+700x1600报告期总平均成本=2400-1600=640(元)总平均成本下降的原因是该公司产品的生产结构发生了变化,即成本较低的甲企业产量占比上升而成本较高的乙企业产量占比相应下降所致。表3-3某公司生产产品的总平均成本基期报告期总成本单位成本(元)产量(吨)单位成本(元)产量(吨)基期(元)报告期(元)甲企业600120060024007200001440(H)0乙企业7001800700160012600001120000合计3000400019800002560000总平均成本6606402.设某校某专业的学生分为甲、乙两个班,各班学生的数学成绩如表3-4所示。表3-4数学成绩表
69甲60.79.48.76.67.58.65.78.64.75.76.78.84.48.25.90.98.70.77.78.68.74.95.85.68.80.92.88.73.65.72・74.99.69.72.74.85.67.33,94.57.6〇•班6U78.83.66.77.82.94.55.76.75.80.6191,74.62.72,90.94.76.83.92.85.94.83.77.82.84.60.60.51.60.78.78.80.70,93.84.81.81.82・85.78.80.72.64.41.75.78.61.42.53.92.75.81.班81.62.88.79.98.95.60.71.99.53.54.90.60.93
70926181858278两个班成绩分布特征的各种统计指标如表3-6所示。表3-6成绩分布统计指标—甲班乙班指标平均数72.70476.018标准误差1.9981.905中位数74.578.5众数7860(样本)标准差14.68114.257(样本)方差215.533203.254标准差系数0.20190.188峰度1.664-0.305偏度-0.830-0.5905区域7458最小值2541最大值9999求和39264257观测数5456(总体)方差211.542199.625从离散程度来看,甲班成绩的标准差系数%=02019,乙班成绩的标准差系数匕=0188,匕,匕,所以乙班成绩的波动性小,更稳定。从集中趋势来看,乙班成绩的平均数、中位数均大于甲班,而甲班的众数高于乙班。从最值来看,甲乙两班的最高成绩都是99,而乙班的最低分高于甲班。因此,总体而言,乙班的成绩好于甲班。根据第2小题的数据,试求该专业全部学生的总平均成绩和方差,并利用本题数据验证:分组条件下,总体平均数与各组平均数的关系以及总体方差与各组方差、组间方差的关系。Z(r-T):解:根据总体方差的计算公式ー«一一可得:;11423.2593211178.9821.....==211.54<72.==199.6254全部学生成绩的方差び’=22904.193:08Z99110
71不==ーヌ1=4+1993X6=ユ0卄i(r-r):n鬲no110(727037-743909:x54-(76.0179-743909):、56=2.745总体方差(208.2199)=组内方差平均数(205.4749)+组间方差(2.745)根据第2小题的数据,分别编制两个班成绩的组距数列(组距为10),然后由组距数列计算反映数据分布特征的各个指标,并观察与第2题所得到的计算结果是否相同?为什么?解:表3-7甲班的组距数列表成绩人数ア组中值xXf离差平方和(x-x)2/40以下235703273.142882.3840-50245901854.9591563.8650-603551651255.165968.00860-7013658451420.868824.32270-80197514253.9256278.83880-90885680728.92561159.1190以上7956652674.1743399.41合计54—394011211.1610875.9由3-7表可以计算出,甲班的平均成绩为72.963,样本方差为205.2,样本标准差为14.33。表3-8乙班的组距数列表成绩人数/组中值XXf离差平方和(x-x)2/40以下03500040-50245901854.9592159.1650-604552201673.5542089.7760-70965585983.6781487.7270-80147510502.893114.27480-90158512751366.736765.33790以上129511404584.2983526.59合计56——■——436010466.1210142.9
72由表3-8可以计算出,乙班的平均成绩为77.857,样本方差为184.4,样本标准差为13.58。某商贸公司从产地收购ー批水果,分等级的收购价格和收购金额如表3-9所示,试求这批水果的平均收购价格。、、水果等级、、收购电价(元/千克)收购额(元)甲2.0012700乙1.6016640丙1.308320介计一37660表3-9收购价格、收购金额表解:表3-10收购单价、收购金额和收购数量表水果等级收购单价(元/千克)收购金额(元)收购数量甲2.00127()06350乙1.601664010400丙1.3083206400合计—3766023150=1.6268(7L)ア收购总额里”ノ)12700-16640-8320ー收购总量ユ(X/)127001664083202X,2.00L60L30由上表计算可得,水果的平均收购价格为:6.某中学校正在准备给一年级新生定制校服。男生校服分小号、中号和大号三种规格,分别适合于身高在160cm以下、160〜168cm之间和168cm以上的男生。已知一年级新生中有1200名男生,估计他们身高的平均数为164cm,标准差为4cm。试由此粗略估算三种规格男生校服应该分别准备多少套(按每人1套计算)?
73解:均值=164;标准差=4;总人数=1200身高分布通常为钟形分布,按经验法则近似估计:表3-11身高分布表规格司同分布范围比重数量(套)小号160以下0.15865190.38中号160-168均值土lx标准差0.6827819.24大号168以上0.15865190.38合计1200平均数和方差一般只能对数值型变量进行计算。但若将是非变量(也称为是非标志)的两种情况分别用1和。来表示,则对是非变量也可以计算其平均数和对应的方差、标准差,试写出有关计算公式。解:用1代表“是“(即具有某种特征),〇代表“非"(即不具有某种特征)。设总次数为N,1出现次数为メ,频率(入"》)记为尸。由加权公式来不难得出:是非变量的均值=尸;方差=尸(1ーめ:标准差=回匸再。
743.3考研真题与典型习题详解ー、单项选择题以下关于极差离散系数说法错误的是()。[华东师范大学2014研]A,极差离散系数等于极差除以均值B,极差离散系数越大的数据,方差也越大C.极差离散系数不是稳健的统计量D,极差离散系数未必等于标准差离散系数【答案】B【解析】极差离散系数为极差与均值之比,标准差离散系数为标准差与均值之比,二者都可用于比较不同水平的变量数列的离散程度。极差为数列最大值与最小值之差,容易受极端值影响,因此,极差离散系数不是稳健的统计量。极差离散系数与标准差系数不一定相等,与数列方差没有必然联系。样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的()。[东北财经大学2013研]A.25%B.40%C.50%D.75%【答案】C【解析】下四分位数是指处在25%位置上的数值,上四分位数是指处在75%位置上的数值。因此样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的50%。当数列中存在明显极端值时,反映数列平均水平适合的指标是()。[四川大学2013研]A.算术平均数B,调和平均数C.几何平均数D,中位数【答案】D【解析】存在极端值时,平均数受极端值的影响较严重,中位数是中间位置上的数,较平均数有好的稳定性,不受极端值的影响。以下关于变异系数的说法错误的是()。[华东师范大学2013研]
75A.变异系数等于标准差除以均值B.变异系数没有单位、不受数据量纲的影响C.变异系数是稳健的统计量D,变异系数反应了数据的波动情况【答案】C【解析】离散系数也称为变异系数,它是ー组数据的标准差与其相应的平均数之比,它衡量的是统计资料离散程度,其计算公式为:匕マ。ラ卜.-H5.样本中位数和样本均值可以作为总体中心的估计,那么,使得とI1V(x-6)*达到最小的a应是(),使得占.达到最小的b应是()。[华东师范大学2013研]A.样本中位数,样本均值B.样本均值,样本中位数C.样本中位数,样本中位数D.样本均值,样本均值【答案】Afix-al【解析】セ1可以理解为各个样本到某个值的距离的总和,显然当a为中位数时,距离的总和能够达到最小值。V(x,-2dfx+nb~=Xx*2bx-b'IV(x.-d)*因为と.£*‘£■.金’,则若使な达到最小,也就是使2必ーガ达到最大,显然当6=え时,2必ーガ取最大值,也就是士达到最小。
76移动公司在对人们更换手机的频率的调査中发现,有40%的人每半年更换一次新手机,20%的人每1年更换一次,30%的人每2年更换一次,10%的人每3年更换一次,那么人们更换新手机时长的中位数为()年。[中山大学2013研]A.0.5B.1C.1.5D.2【答案】B【解析】中位数是指ー组数据排序后处于中间位置上的变量值。本题,按人们更换新手机时长进行排序后,很容易得出位于中间位置上,即50%的位置上的变量值为1,因此,人们更换新手机时长的中位数为1年。下列各项中,最容易受到极端值影响的是()。[首都经济贸易大学2012研]A.极差B.四分位差C.异众比率D,方差【答案】A【解析】极差是ー组数据的最大值与最小值之差,最容易受极端值的影响,因此,不能准确描述出数据的分散程度。四分位差是上四分位数与下四分位数之差,反映了中间50%数据的离散程度。异众比率是指非众数组的频数占总频数的比例,主要用于衡量众数对ー组数据的代表程度。方差是各变量值与其平均数离差平方的平均数。|ー组数据包含10个观察值,则下四分位数的位置为()。[江苏大学2012研]A.2B.2.5C.2.75D.3【答案】C【解析】四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数和上四分位数分别为Qi、Q"Q”则:Qi、Qユ、Q3的位置可由下述公式确定:_w+1_2(n+l)_n+1_3(ra+l)Q1的位置4,;Qユ的位置42;Q,的位置4式中n表示样本容量。
77对ー组数据的描述统计分析表明,样本均值=12.45美元,中位数=9.21美元,方差=22.85〇由此可以计算样本数据的离散系数为()。[中央财经大学2012研]A.0.38B.0.40C.0.54D.2.48【答案】A【解析】离散系数也称为变异系数(coefficientofvariation),它是ー组数据的标准差与其相应的平均数之比。其计算公式为:A、B两单位职エ平均エ资水平对比结果为工,〉爲,则两单位平均工资的代表性()。[首都经济贸易大学2011研]A.A单位的代表性高B.B单位的代表性高C.两单位的代表性一样D.不一定【答案】D【解析】若两单位的离散程度ー样,则说明A单位平均工资的代表性要高于B单位〇为消除变量值水平高低对离散程度测度值的影响,需要计算离散系数。某企业2010年1-4月初的商品库存额如下表:(单位:万元)月份1234月初库存额20241822则第一季度的平均库存额为()。[浙江工商大学2011研]A.(20+24+18+22)/4B.(20+24+18)/3C.(10+24+18+11)/3D.(10+24+9)/3【答案】C(—-a,+a3+—)/3=(—+24+18+—)/3【解析】该企业2010年第一季度的平均库存额为:2一’222
78两组数据的均值不等,但标准差相等,则()。[江苏大学2011研]A.两组数据的差异程度相同B.均值大的差异程度大C.均值小的差异程度大D.无法判断【答案】C【解析】对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的,此时需要计算离散系数,也称为变异系数。它是测度数据离散程度的相对统计量,离散系数大说明数据的离散程度也大;离散系数小说明数据的离散程度也小。其计算公式为'X,通过比较可知在标准差相等的条件下,均值小的离散系数大,即数据的差异程度大。现有一份样本,为100名中学生的IQ分数,由此计算得到以下统计量:样本平均(mean)=95,中位数(median)=100,下四分位数(lowerquartile)=70,上四分位数(upperquartile)=120»众数(mode)=75,标准差(standarddeviation)=30〇则关于这100名中学生,下面哪ー项陈述正确?()[中山大学2011研]A,有一半学生分数小于95B.有25%的学生分数小于70C.中间一半学生分数介于100到120之间D.出现频次最高的分数是95【答案】B【解析】一半学生分数小于中位数,即100;中间一半学生分数介于下四分位到上四分位之间,即介于70到120之间;出现频次最高的分数是众数,即75。下四分位数是指该样本中所有数值由小到大排列后第25%的数字,从题干中可知有25%的学生分数小于70。[一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?()[西安交通大学2006研]A,全班65%的同学的考试成绩高于均值B.全班65%的同学的考试成绩高于中位数C.全班65%的同学的考试成绩高于众数D.全班同学的考试成绩是负偏态分布
79【答案】B【解析】大部分同学的考试成绩集中于高分段,说明成绩分布时左偏分布。中位数是数据排序后,位置在最中间的数值。显然,中位数将数据分成两半,一半数据比中位数大,ー半数据比中位数小。I一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?()[西安交大2006研、北京大写200〇研]A,全班65%的同学的考试成绩高于均值B,全班65%的同学的考试成绩高于中数C.全班65%的同学的考试成绩高于众数D.全班同学的考试成绩是负偏态分布【答案】B【解析】中位数是数据排序后,位置在最中间的数值。显然,中位数将数据分成两半,一半数据比中位数大,ー半数据比中位数小。如果峰态系数K>0,表明该组数据是()。A,尖峰分布B.扁平分布C,左偏分布D.右偏分布【答案】A【解析】峰态系数用K表示。峰态通常是与标准正态分布相比较而言的。如果ー组数据服从标准正态分布,则峰态系数的值等于。;若峰态系数的值明显不等于〇,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。K>0,表明该组数据是尖峰分布;K<0,表明该组数据是扁平分布。甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩ス〉忌,标准差s,
80D.无法判断【答案】B【解析】为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需—__要计算标准差系数,其计算公式为:X,标准差系数越大,离散程度越大。由于レ<ゝ’乙,所以乙班学生统计学成绩离散程度较大。在离散程度的测度中,最容易受极端值影响的是()。A.极差B.平均差C.标准差D,标准差系数【答案】A【解析】众数和中位数不受极端值的影响,而ABCD四项都会受到极端值的影响,但是由于极差是ー组数据最大值与最小值之差,故最容易受极端值影响。在加权算术平均数公式中,若各个变量值都扩大3倍,而频数都减少为原来的1/3,则平均数()。A,不变B.减少3倍C.扩大3倍D,扩大4倍【答案】C【解析】假设原来的加权算术平均数为钎迎12メ,若变量值都扩大3倍,而频数都减少为原来的1/3,那么,二、简答题简述衡量数据离散程度的统计量有哪些,并说明各自的适用范围。[中央财经大学2013
81研、东北财经大学2014研]答:衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。(1)极差是指ー组数据的最大值与最小值之差。用及表示,其计算公式为:R=max(x;)-min(xt)极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。(2)平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之说明数据的离散程度小。为了避免离差之和等于零而无法计算平均差这ー问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理解。(3)方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均,方差开方后即得到标准差,方差或标准差能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。为什么要计算变异系数?[江苏大学2012研]答:变异系数又称离散系数或者标准差率。它与均值和方差相同,是衡量统计资料离散程度的又一指标统计量。方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另ー方面,它们与原变量值的计量单位相同。采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算变异系数。变异系数的计算方法是:均值与标准差的比。比值越大,说明样本离散程度越小。比值越小,说明样本离散程度越大。简述众数、中位数和平均数的特点和应用场合。[南京财经大学2011研]
82答:(1)众数的特点如下:①其优点是不受极端值的影响;②其缺点是具有不惟一性。ー组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时オ有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。
83(2)中位数是ー组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是ー个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。(3)平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差〇因此当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。为客观反映某一地区职エ工资总体水平,你认为应采用何种方法计算哪些指标(或统计量),并进行简要说明。[首都经济贸易大学2011研]答:平均值,标准差,离散系数为反映某一地区职エエ资总体水平,需要对该地区职エエ资进行描述统计。职エエ资为数值型数据,反映数值型数据集中趋势的统计量为均值,反映数值型数据离散趋势的统计量为标准差或方差,反映数据分布的形状是否对称、偏斜的程度以及分布的扁平程度的统计量为偏态系数和峰态系数。所以要计算该地区职エ工资的均值、标准差、偏态系数和峰态系数。如何利用峰度系数和偏态系数判断数据分布的正态性?[中央财经2007研复试]答:峰度系数是用离差四次方的平均数再除以标准差的四次方,其计算公式为:式中:s4表示样本标准差的四次方。公式中将离差的四次方除以s'是为了将峰度系数转化成相对数。用峰度系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰度系数进行比较而言的。由于正态分布的峰度系数为0,当K>0时为尖峰分布,当K<0时为平峰分布。SK=偏态系数的计算公式为:,式中:s:表示样本标准差的三次方。从这个公式可以看出,偏态系数是离差三次方的平均数再除以
84标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而SK的分子等于。,即SK=O;当分布不对称时,正负离差不能抵消,就形成了正或负的偏态系数SK。当SK为正值时,表示正离差数值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差数值较大,可以判断为负偏或左偏。在计算SK时,将离差三次方的平均数除以,是将偏态系数转化为相对数。SK的数值越大,表示偏斜的程度就越大。简述均值、众数和中位数三者之间的关系及其在实际中的应用。[北京林业大学2006、2005研、中央财经大学2005、2002研、首都经贸2003研、中南财经政法大学2002研、人大2002研]答:(1)众数、中位数和平均数的关系从分布的角度看,众数始终是ー组数据分布的最高峰值,中位数是处于ー组数据中间位置上的值,而平均数则是全部数据的算术平均。对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:①如果数据的分布是对称的,众数(M0)、中位数(M,.)和平均数(マ)必定相等,即Mo=Mc=マ;②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:X③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则M. 85(1)计算数据的均值、中位数和众数。你认为哪ー个结果最能反映这组数据的一般水平?为什么?(2)根据以上数据给出数据的茎叶图。(3)绘制以上数据的简单箱线图。(4)根据以上计算和图形分析数据分布的特征。[中央财经大学2014研]解:(1)对数据进行排序:10,25,25,30,30,40,40,45,50,55,55,60,70,70,90_孕’10+55+…+70695均值マ=节・=一!5=TF=ほ"(分钟)众数M=25,30,435.70(分钟)方奇数サ)偶数,因此为第8个数值,",=45(分钟)其中均值最能反映这组数据的一般水平,因为均值是集中趋势的最主要测度值,且该组数据中不存在明显极端值,均值能较准确地反映这组数据的中心值。(2)茎叶图如表3-12所示:表3-12树茎树叶数据个数1234567905500005055000012233121(3)题目数据中,最大值=90,最小值=10,中位数=45下四分位数Q.的位置=15/4=3.75,因此Ql=25+O.75x(30-25)=28.75上四分位数Qu的位置=15x(3/4)=11.25,因此Qi,=55+0.25x(60-55)=56,25图3-4(4)从(1)中计算可知,均值大于中位数;从(2)中茎叶图可以看出数据分布不对称;从(3)中箱线图3-4可以看出数据呈右偏分布,从箱子的长度可以看出,此样本的数据分布比较分散。某班学生5月份上网情况如表3-13所示。(保留整数) 86表3/31:■人数(人)上网费用(元/月.人)上网时间(时/月.人)10以下5510-30301030-50502050—7020307()〜901()3590以上450(1)计算该班学生上网时间的众数;(2)计算该班学生上网时间的标准差及标准差系数;(3)计算每个学生上网时间和上网费用之间的相关系数。[四川大学2013研]解:(1)上网时间的众数在组别30〜50中,左右相邻组的频数(本题为上网人数)分别为30、20〇故由众数的的计算公式:众数=下组限X左相邻组的频数占左右相邻组总频数的百分比+上组限x右相邻组的频数占左右相邻组总频数的百分比。30x—+50x—=38可得众数为5050(时/月•人)。(2)以组中值代表该组的平均水平,并设下开口组的组距为10,上开ロ组的组距为20,〜ソ、5x5+20x30+40x50+60x20+80x10+100x4502515+30+50+20+10+4119上网时间为X小时。则上网时间的均值为方差为 87D(X)=£(X2)-(£(X))5*x5+20*x30+40*x50+60*x20+80*x10+100*x4,ヽ“ゝ5+30+50+20+10+4=42.23*=476.76S="(X)=21.83故标准差为v=---=0.51£(X)标准差系数为(3)以组中值代表该组的平均水平,并设下开口组的组距为10,上开口组的组距为20,则上网时间为5,20,40,60,80,100(小时):设上网时间为X,上网费用为Y,则由Z(%-xXv;-y)相关系数的计算公式:£(r)=20.79.Z)(y)=184.37,y.x,^=130125经计算得Z-1带入公式计算可得ア=0.728。随机抽取25个网络用户,得到他们的年龄数据如表3-14所示。表3-14 88単位:周岁19152925242321382218302019191623272234214120311723要求:(1)计算众数、中位数;(2)计算平均数和标准差;(3)计算偏态系数和峰态系数:(4)对网民年龄的分布特征进行综合分析。[南京大学2009研]解:(1)对表中数据按从小到大顺序排列:15161718191919202021222223232324242527293031343841由排序数据可知,年龄出现频数最多的是19和23,都出现3次,所以有两个众数,即&=19和&=23。=23_n+l_25+1_13由于中位数位置22,所以,勺“19+15+…+23600ヽ,x=——==——=24n2525(2)平均数:由平均数マ=24可得: 89'(19-24)2+(15-24)2+--+(17-24)2+(23-24)225-1=6.65SK吃(弔ーか25工(演-2ザ"(n-l)(n-2)?(25-1)(25-2)x6.65:(3)偏态系数:n(n+l)X(xt-x)4-XX(x,-x)2]:(n-l)(“_帅_2)(〃_3*25(25+1)2(ホー24)4-3叵(モー24)[:(25-1)(25-l)x(25-2)x(25-3)x6.654峰态系数:(4)对网民年龄的分布特征进行综合分析的结果如下:从众数、中位数和平均数来看,网民年龄在23〜24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,并且偏态系数大于1,所以偏斜程度很大。峰态系数为正值,所以为尖峰分布。ー种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):[深圳大学2006研]表3-15产品数量表 90方法A方法8方法C129125130126129126130127131126165130128129127127126128127128127127125128126128116125126原132125(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择ー种方法,你会作出怎样的选择?试说明理由。解:(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。(2)表3-16给出了用Excel计算ー些主要描述统计量。カ优Aカ一BルはC平均心閏6平均效12a.73平均故125.53中位数165屮位敷129中位政126众H164众教128众教126林鹿发2.13拝盘如1.75林准发277極融8候始7松屋12*小仙162,小值125M小依116■大依170■大他132•大依128表3-16描述统计量从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为: 91Vr=—=_L-♦=0.014xB128.73匕=&=/ー=0.022苞!25.53方法A的离散系数最小,即离散程度最小,因此应选择方法A。 92第四章概率基础4.I复习笔记ー、随机现象与随机事件确定性现象与随机现象客观现象的分类:(1)确定性现象是指在一定条件下必然出现(或不出现)某种结果的现象。这类现象的共同特点是:在ー定条件下其结果可以预言。(2)随机现象是指在给定的条件下不能确切预言其结果的现象。这些现象的共同特点是:可以在相同条件下重复进行观察或试验,而每次观察或试验的结果不止ー个,且事先无法预言确切的结果。注意:在不确定的现象中,还有一类无法重复观察或试验的,称为不确定现象(本书将可重复的随机试验作为讨论重点)。2.随机事件对随机现象进行观测又称作随机试验,随机试验的每ー种结果或随机现象的每一种表现称作随机事件,简称为事件,一般用大写字母43,C,…(必要时加下标)来表示。(1)事件的种类①基本事件:是指ー个事件不能再被分解为两个或两个以上事件。基本事件是试验的最基本结果:每次试验必出现ー个基本事件,任何两个基本事件都不会同时出现。②复合事件:是指由两个或两个以上基本事件所组成的事件。③必然事件:是指每次试验都一定出现的事件,记作C。④不可能事件:是指任何一次试验都不可能出现的事件,记作。。(2)事件的关系和运算①包含:关系式,ソu3表示“若メ出现,则3也出现(反之则未必)”,称作“8包含,イ”,或“メ导致5”。 93②相等:关系式メ=3表示二事件イ和5要么都出现,要么都不出现,称作“事件,4等于事件B”或“事件メ和3等价”。③和(并):运算式X+B或HUB读作“メ加3,,,称作“ス与3的和(并)”,表示“メ和5至少出现ー个‘对于多个事件メ(i=l,2,...),汇4l)AT或?’表示“诸事件A,(i=l,2,...)中至少出现ー个”。④差:运算式メ〜B或イ、8读作“ソ减3”,称作“イ与B的差”,表示“事件イ出现但3不出现。”⑤交(积):运算式或ス。3,称作“イ与3的交(或积)”,表示“事件イ和B同时出现”。对于多个事件4(i=l,2,...),表示“诸事件4(1=1,2,...)同时出现”。⑥逆事件:ス={イ不出现},称作A的对立事件或逆事件。显然イ和ス互为对立事件,它们之间有下列关系:イ+コ=。,イDイ=。,コ=。ーイ。⑦不相容:若,が=0,即イ与B不可能同时出现,则称イ和3不相容。二、概率的性质及其计算概率的概念概率是事件イ在随机试验中出现可能性大小的数值度量,事件イ的概率以ア(川表示。2.随机事件的频率与概率的关系①频率:在相同条件下,重复进行同一随机试验,イ是这个试验的一个结果(事件)。设试验的次数为〃,在〃次重复试验中イ出现的次数为り(ム)=ム犯,则事件イ的频率为:②概率和频率的关系联系:通过大量观测,可以发现:随机试验的频率具有随试验次数增加而趋向稳定的性质,而频率的稳定值可以用来反映事件发生的可能性大小。因此,可以说频率的稳定值尸是事件イ发生的概率。即尸«)=尸。在实际应用中,常常通过做大量重复试验得到事件发生的频率,且以它作为概率的近似值或估计值。区别:虽然事件的频率与概率都是事件出现可能性大小的度量,但频率是试验值,依赖于 94试验的次数。即使试验次数相同,频率也可能取不同的值,频率具有随机性。概率则是独立于试验而客观存在的理论值,其大小取决于事件本身固有的规律性。2.概率的性质设事件ス的概率为ア(厶),其性质包括:⑴非负性,即0"(/ロ(2)规范性,即对于必然事件。,有尸(0=1ァ伝4)=之ア⑷V.ZJ7(3)对于随机事件41=12…),只要它们两两互不相容,则有4.概率的估计和计算(1)概率的直接计算①古典型概率如果ー项随机试验的全部基本事件总数有限,并且各基本事件出现的可能性都相同,事件p,一.嘶含基本事件的个数'-基本事件总数一A由若干基本事件所组成,则A的概率计算公式为:②几何型概率如果随机试验可模拟为向区域。上随机投点。并且满足以下两点:a.这个区域有明确界限,可以作长度、面积、体积的几何度量;b.随机点落在这个区域任何一点上的可能性都相同,也就是说,对于。中的某一区域g,随机点落在g内的概率与g的几何度量成正比,同它的形状以及在。中的位置无关。尸.)ー那几何度量。的几何度量对于这种随机试验,如果以,4表示(随机点落在区域g中}这ー事件,则其概率计算公式为:(2)用频率估计概率在最一般情况下,用事件在大量重复试验中出现的频率估计其概率的值。这样做的依据是概率的稳定性。(3)主观概率 95根据决策者综合各种信息,并依靠其经验和判断力对事件的概率作出估计,这种概率的估计值被称为主观概率。主观概率不假定现象的可重复性,甚至可以根据一次性试验作出判断。在对事件出现的真实可能性缺乏有效估计时,主观概率法也可作为解决问题的ー种方法。不过,目前对主观概率法的应用理论界尚存在争议。(4)概率的计算公式①概率的加法法则a.任意事件的加法规则。任意两个事件和(并)的概率,等于两事件概率的和再减去两事产(ム+3)=尸(,4)+尸(B)ー尸(メガ)件同时发生的概率。即P(.4+5+C)=P(J)+P(5)+P(C)-P(.13)-P(JC)-P(5C)+P(\-15C)b.不相容事件的加法规则。两个不相容事件,4与3的和(并)的概率,等于两事件概率的和。即②条件概率和乘法公式a.条件概率:设ス,3是任意两个事件,且尸(3)>°,则称为“在事件3发生的条件下,事件A发生的条件概率”,简称“メ关于3的条件概率”。b.乘法公式:设ス与3是任意两个事件,且产(厶)尸(8)>°,则P(\45)=P(5)P(J|5j尸(ー武)=尸(イ)尸(5⑷ 96③全概率公式BbB2^5.=0.^(5;)>0(i=1,2,•••,«)设:…,"为”个互不相容事件,且戸,则任P(J)=yP(5.)P(;4|5.)ー事件ス的概率为、公’ビノ。④贝叶斯公式设坊,区,,纥为〃个互不相容事件,且£’〇A・岫)=ー-丨」=『__!—(i=l,X....n)11工产区)尸(ン氏)是任一事件,且ア⑷>°。则对任一瓦〇…⑼,有⑤事件的独立性a.统计相依的概念对于两个事件メ和3,假若事件B的发生会对事件メ发生的概率产生影响,即アひ四工尸(㈤,称事件イ与3之间统计相依。b.统计独立的概念假若事件3的发生并不影响事件イ发生的概率,称事件メ与B之间统计独立。在ス与3独立时显然有ア(邓)=尸(/)。c.事件独立性的定义设ス与3是任意两个事件,如果满足尸(カX「(⑷尸”),则称事件メ与3独立,否则称,4与3相依。&事件独立推广到〃个事件的情形在〃个事件中,如果其中任意ー个事件发生的概率不受其余〃T个事件发生与否的影响,那么就称这〃个事件相互独立。就三个事件来说,事件尸(,イ)=尸(イ)尸(3)独立,必须有P(BC)=P(B)P{C} 97尸(イC)=尸(4)尸(C)P(.4SC)=P(,4)P(5)P(C)e.相互独立与互不相容的区别:独立性是指两个事件的发生互不影响,互不相容是指两个事件不能同时发生。两个不相容事件一定是统计相依的,两个独立事件一定是相容的(除非其中有一个事件的概率为0)。三、随机变量及其分布随机变量的概念(1)随机变量的定义是指其取值带有随机性的变量。在给定的条件下,这种变量取何值事先不能确定,只能由随机试验的结果来定,并且随试验的结果而变。(2)随机变量的种类①离散型随机变量:随机变量的全体可能取值能够ーー列举出来②连续型随机变量:随机变量的全体可能取值不能ーー列举,其可能的取值在数轴上是连续的。2.随机变量的概率分布随机变量的一切可能值的集合(值域),及其相应的概率叫做随机变量的概率分布。随机变量的统计性质可由它的概率分布来表征。(1)离散型随机变量的分布离散型随机变量オ的每ー个可能的取值项和随机变量取该值的概率0(占)之间所确立的对应关系称作这个离散型随机变量的分布。尸(项)('=1,23…)称作随机变量p(h)と的士ア(%)=1X的概率分布或概率函数,它满足下面的关系:(2)连续型随机变量的分布 98连续型随机变量”的ー系列取值区间和随机变量在该区间取值的概率之间确立的对应关系,称作这个连续型随机变量的分布。连续型随机变量的分布可以用密度函数来描述,随机变量X的密度函数记作タへ)。密度函数满足下面两个基本性质:①P(x)20②匸p(x)厶=12.随机变量的数字特征(1)随机变量的数学期望①数学期望的概念随机变量x的数学期望是ア的一切可能值以相应的概率为权数的加权算术平均数。记作E(才)PlPlPl...Pk若x是连续型随机变量,其概率密度函数为"(X),则オ的数学期望定义为E(才)=「卬(x)女式中的定积分应绝对收敛。②数学期望的性质:性质1若c为常量,则有E(C)=C性质2石(*+。)=ど(め+C性质3E(CX}=CEiX')性质4若乂为随机变量,则有E(X±】’)=E(X)土石(り 99推广到“个随机变量和的情形:しー[リカI性质5若随机变量屿『独立,则有同ガ)=E(X)E(F)E(占)…E(K)推广到〃个独立随机变量情形:若スノ…”匕独立,有スス陷…Z)=E(%)注意:这里的随机变量独立,是说ー个随机变量取何值,不会影响另一个随机变量的分布规律。或者说(就离散型随机变量来说),是要求ズ的所有可能的取值与’的所有可能的取值两两配对独立。(2)随机变量的方差、标准差和变异系数①方差和标准差ア(£)=E[X-E(X)T=E(才)一团巧了随机变量オ的方差,记作口》),是オ与其数学期望的离差平方的数学期望。即称用而为オ的标准差。0(X)=t[x「E(X)]7若刀是离散型随机变量,则X的方差用下式计算:,(才)=「鼠-E(め),(xg若X是连续型随机变量,其概率密度函数为夕(刈,则オ的方差用下式计算。②方差的性质性质1若C为常量,则有ク(c)二°性质2『(x+c)=n©性质3/(5)=CMX)性质4若随机变量ス与Y独立,则有门オー"=/(X)+广(门Vz*:=£,(ム)推广到〃个独立随机变量的情形:若並,…,乜独立,有17リョ性质5若随机变量オ与】‘独立,则有ブ万ーり=/(丫)+厂(厂) 100③变异系数随机变量的变异系数是随机变量的标准差与数学期望的比率。随机变量X的变异系数写作四、几种常用的概率分布两点分布①定义如果随机变量X只取1和。两个值,取1的概率是P,取。的概率是1-P,我们称X服从两点分布或。/分布,ア是オ的参数。②两点分布的数字特征数学期望E(X)=P,方差ク(X)=P(1-P)2,二项分布①定义如果把一个贝努里试验在完全相同的条件下独立地重复〃次,称作〃重贝努里试验。〃重贝努里试验应符合下列三个条件:①每次试验只有“成功”和“失败”两种对立的结局;②各次试验“成功”的概率相同(都为P);③各次试验相互独立。以随机变量X表示〃重贝努里试验中“成功”的次数,它服从参数为50尸(》=4)=ぐザ(1ー「)1(左=0,レッ〃)的二项分布。二项分布的概率函数为其中,と是〃重贝努里试验中“成功”的次数。②二项分布的数字特征数学期望司オ)=ゆ,方差ク(ヌ)=ゆ(1-P)。3,超几何分布 101①定义如果有限总体单位数目为N,其中具有某种特征的单位数目为“,对这个总体进行〃次不还原简单随机抽样,用随机变量X表示样本中具有某种特征的单位的数目,则XP(X=无)=C:步(无=0,1,….min[〃,"})cx服从参数为(N』]》)的超几何分布。超几何分布的概率函数是其中,ん是样本中具有某种特征的单位的数目。②超几何分布的数字特征数学期望E(X)=〃P(这里,P=Mヽ),方差"©=叩"ー叫2.正态分布①定义令随机变量ズ是在ー个随机试验中被测量的结果,并且,决定这项试验结果的是大量偶然因素作用的总和,每个因素的单独作用相对均匀地小,那么,X的分布就近似于正态分布。正态分布的密度函数巧0②正态分布密度函数的两个参数正态分布的密度函数有两个参数:4和び、从密度函数的图形来说,4决定着曲线在横轴上的位置,以越大,图形位置越靠右;ザ决定着曲线的形状,标越大,图形越“矮胖’‘,如图4J所示。图4*1正态分布概率密度曲线中的参数 102③标准正态变量及其标准化的概念a.标准正态变量zz=0zt*=1N(0.1)标准正态变量是,的正态变量,通常记作。通常用Z来表示标准1£p(z)=-^e:(Y 103分布的第一自由度(分子自由度),エ称作F一分布的第二自由度(分母自由度)。②概率密度函数加/㈤ェfl概率密度函数的图形如图4・3。图中表示一族曲线,其形态随和的改变而不同。图4-3F-分布的概率密度函数曲线Uん工:)与り(カノ)的关系式是『“",月(カノ)。5.t一分布①定义设x是标准正态变量,y是自由度为レ的ズ变量,且x和f相互独立,则称随机变量t_X师所遵循的分布规律为t一分布。”称为它的自由度,记作’(レ)。②概率密度曲线概率密度函数的图形如图4-4。图中表示一族曲线,其形态随“的改变而不同。从图可以看到,t-分布类似于标准正态分布,其密度曲线是以纵坐标轴为对称轴的单峰曲线。当自由度“较小时,t一分布比标准正态分布分散些,图形的两尾高于正态分布而峰顶低于标准正态分布。随着レ的增大,t一分布越来越接近标准正态分布,至[]レ=エ时,t-分布完全变成了标准正态分布。 104图4-4t一分布的概率密度曲线 1054.2课后习题详解ー、判断分析题设イ、5、C表示三个随机事件,将下列事件用イ、B、C表示出来。(1)イ出现,B、C不出现:(2)イ、3都出现,而C不出现;(3)所有三个事件都出现;(4)三个事件中至少ー个出现;(5)三个事件中至少两个出现;(6)三个事件都不出现;(7)恰有一个事件出现。答:(1)疝モ;(2)-iSC.(3).吟(4)X+3+C;(5).13+BC+C4;(6)ABC;(7).4BC+ABC+ABC0以E表示随机试验,以Q表示E的基本事件空间。试描绘下列随机试验的基本事件空间和所列事件中所包含的基本事件。(1)E:对同一目标接连进行三次射击,并观察是否命中;考虑事件:イ={三次射击恰好命中一次},8={三次射击最多命中一次}。(2)£:同时掷两个骰子观察点数和;考虑事件:イ={点数之和为奇数}。答:(1)A=(仅命中第一次,仅命中第二次,仅命中第三次};B={三次射击命中0次,三次射击命中1次}(2)A={点数之和为1、3、5、7、9、11}抽查4件产品,设イ表示“至少有一件次品”,3表示“次品不少于两件“。问ス、B各表示什么事件?答:ス表示没有次品;3表示次品不多于一件。在图书馆按书号任选一本书,设イ表示“选的是数学书”,B表示“选的是中文版”,C表示“选的是1990年以后出版的”。问:(1)J5ざ表示什么事件?(2)CPI3表示什么意思?(3)若ス=8,是否意味着馆中所有数学书都不是中文版的? 106答:(1),がで=选的是中文版的、1990年以前出版的数学书。(1)CCI3=199()年以后出版的中文版的书。(3)不是。A=B意味着所有非数学书是中文版的。所有数学书可能有的是中文版的、有的是英文版的。二、计算题向三个相邻的军火库掷ー个炸弹。三个军火库之间有明显界限,一个炸弹不会同时炸中两个或两个以上的军火库,但ー个军火库爆炸必然连锁引起另外两个军火库爆炸。若投中第一军火库的概率是〇.025,投中第二军火库以及投中第三军火库的概率都是0.1。求军火库发生爆炸的概率。解:设メ、B、C分别表示炸弹炸中第一军火库、第二军火库、第三军火库这三个事件。于是,产(,4)=0.025,尸(8)=0.1,尸(C)=0.1。又以。表示军火库爆炸这ー事件,则有,D=A+B+Ca其中イ、B、C是互不相容事件(ー个炸弹不会同时炸中两个或两个以上军火库)。.P(D)=P(A)+P(B)+P(C)=0.025+0.1+0.1=0.225某厂产品中有4%的废品,100件合格品中有75件一等品。求任取一件产品是一等品的概率。P(C)=P(J)xP(5)=0.75x0.96=0.72解:/="合格品",8="一等品”,C="取一件产品是一等品”某种动物由出生能活到20岁的概率是0.8,由出生能活到25岁的概率是0.4。问现龄20岁的这种动物活到25岁的概率是多少?解:设ん="这种动物活到20岁"、B="这种动物活到25岁"。VBCAB=AB呐ッ"=组="=0.5.1尸(,4)P(A)0.8在记有1、2、3、4、5五个数字的卡片上,第一次任取ー个且不放回,第二次再在余下的四个数字中任取ー个。求: 107(1)(2)(3)解:(1)(2)(3)3-X53-X35;22345423410第一次取到奇数卡片的概率;第二次取到奇数卡片的概率;两次都取到奇数卡片的概率。两台车床加工同样的零件。第一台出现废品的概率是0.03,第二台出现废品的概率是0.02»加工出来的零件放在ー起,并且已知第一台加工的零件比第二台加工的零件多一倍。求任意取出的零件是合格品的概率。解:设及=(第一台车床的产品};员=(第二台车床的产品};,イ={零件是合格品}。则ア出|=ラ尸(生1=;尸(スロJ=1-0.03=0.9フ尸(ス氏)=1一0.02=0.98P(J)=P(51)P(j|51)+P(5;)P(J|5;)=yx0.97+1x0.98=0.973由全概率公式得:有两个口袋,甲袋中盛有2个白球1个黑球,乙袋中盛有1个白球2个黑球。由甲袋中任取一球放入乙袋,再从乙袋中取出ー球。问取得白球的概率是多少?解:“4="甲中取得是白球“N="甲中取得黑球"B=“乙中取得是白球”P⑻ノ⑷P(印)+叫川明滑x卜・由全概公式得:在第5题中,如果任意取出的零件是废品,求它属于第二台车床所加工零件的概率。解:设功=(第一台车床的产品};为={第二台车床的产品};イ={废品}。则尸(反)=:尸(%)=§尸(ス同)=093P(.4|5,)=0.02尸(黑レ尸氏)尸(邓:)叶'尸(イ)尸(即ア(ノ国)+尸(号)尸(イ|易)-xO.02231——加-X0.03+1x0,02 10823发报台分别以概率0.6及0.4发出信号“•”及“一”。由于通讯系统受到干扰,当发出信号“,’时,收报台以概率0.8及0.2收到信号“•”及“一”;当发出信号“一”时,收报台以概率0.9及0.1收到信号•“一”及“、求:(1)当收报台收到信号“•”时,发报台确实发出信号“•”的概率;(2)当收报台收到信号“一”时,发报台确实发出信号“一”的概率。解:(1)イ=“发出信号“,”;“发出信号・“一””。5=“收到信号“"’,C=“收到信号“一””ド(メ)=0.6尸(3卜)=0.8P(5p)=0.!尸(。ド)=0.2尸(eg)=0.9尸(B)=P(A)x尸(用イ)+尸(ス)x尸|B日卜0.6x0.8+0.4x0.1=0.52由全概率公式得:口ヰ)=箫=11由逆概公式得:12当收报台收到信号“•”时,发报台确实发出信号“•”的概率是百。P(C)=P(l)P(Cp)+P(J)P(C|j)=0.4x0.9+0.6x0.2=0.48(2)由全概公式得:由逆概公式得: 109尸|永|鬥!C|Pp)P(Cp)036•'==-o、P(C)P(C)0.48若该运动员在设某运动员投篮投中概率为0.3,试写出一次投篮投中次数的概率分布表。不变的条件下重复投篮5次,试写出投中次数的概率分布表。解:(1)一次投篮投中次数的概率分布表表4-2一次投篮投中次数的概率分布表表4-3重复投篮5次投中次数的概率分布表X=Xi012345P(X=Xi)0.168070.360150.308700.132300.028350.00243随机变量x服从标准正态分布N(0,1)〇查表计算:P(0.3 1101600-17201400-1720P(1400 111P(X)=Z[かと(切ス=(2-7)x^-+(3-7)X—+(4-7)x^-+(5-7)X—+(6-7)x-^+(7-7)X—+(8-7)X-1-+36363636363636(9-7)x—+(10-7?x—+(ll-7?x—+(12-7Kx—'36363636=処=5.8333616.已知100个产品中有10个次品。现从中不放回简单随机抽取5次。求抽到次品数目的数学期望和方差。解:才=“抽到的次品数”。一次抽样,抽到次品的概率为ア(工)=ダ二°イ。E(X)=叩=0.5Var(X)«np(y-p)«5x0.1x0.9=0.45独立重复试验:X二以5,0.1)假设接受ー批产品时,用放回方式进行随机抽检,每次抽取1件,抽取次数是产品总数的一半。若不合格产品不超过2%,则接收。假设该批产品共100件,其中有5件不合格品,试计算该批产品经检验被接受的概率。解・ぐ〇.05〇(1-O95)50+くoo5i(i-o.o5)*=0.0769+0.2025=0.2794 112三、证明题如果事件a在ー次试验中发生的概率是p,不发生的概率是g,p+g="试证明在"次独立重复试验中该事件出现次数x的数学期望是ゆ,方差是叩。。E(X)={硏X=防=(ん(4ス〜”证:gi-Cに=X;rim/_示pq=ゆ・エ(^-7)pq”工(「二)pq''2(左一1)!(ねー无)广t?kTtor=ゆ・(ア+q广i=npメ1=np—e[x(x-i)]+ゆーガ,DQO=E(X3)-[E(X)]2=<¥(X-1)]+Eg-但(制『£伏ー2)[5ーOタqス阳ズー1)]=エ垓ー1).(今オ尸因Ik=〃("喚ザ)次二加一源—于是0(X)=n(n-Y)p2+np-n^p:=np-np2-npq随机变量…,匕独立,并且服从同一分布,数学期望为",方差〇<求这ね个随机变量的简单算术平均数ズ的数学期望和方差。1ヽ!_〉E(X)=—xwx/z=/zね公«证:ノ材Var[X]^Varツ气がリTX"8)=卜”宀く随机变量%,*ア…,%独立,并且服从同一分布,数学期望为“,方差为ザ。这〃个随机变量的简单算术平均数为ア。求工ーア的方差。 113iiE:D(Xl-X)=D(Xi—X^j) 1144.3考研真题与典型习题详解ー、选择题己知事件A发生的概率为P,事件A发生时事件B发生的概率为P,事件A不发生时事件B人、際P发生的概率为ラ‘则A和B中至少有一个发生的概率为()。[浙江工商大学2015研]t»«ーーC、P一夕D.イ【答案】B尸(3レイ)=ル9=【解近】依题意有,尸(ス)=ア,尸(⑷尸(川不=尸(3コ)一アび)一尸(./)一p「1ー尸(X)1-PG4)ラ,从而有ア(.4)=が,2〇A和B中至少有一个发生的概率产(duB)=尸(J)+尸(3)ー尸(,超)=p+-pz=— 115两个人轮流抛ー个骰子,约定谁先抛出6谁获胜,则后抛者获胜的概率为()。[中山大学2014研]A.1/2B.5/12C.6/11D.5/11【答案】D【解析】由于是轮流掷骰子,所以第一个人获胜的概率为レ、但丫丄伐丫1丄J雪1・彳66,第二个人获胜的概率为"'5/6A16,则有kカx+」x=lx=g厶=エ'6,解方程6,得11,则61I〇设随机变量X和Y的联合分布是二维正态分布,则X+Y()服从正态分布。[中国科学技术大学2013研]A.是B,不是C.不一定【答案】A【解析】随机变量X和1’的联合分布是二维正态分布,则可知X和F的边际分布为ー维的正态分布,由正态分布的可加性知,X+F服从正态分布。设随机事件4,4,4相互独立,且アし幻=】4](4)=円ヨ1=13,则ケU工「()〇[中国科学技术大学2013研]A.1/3B.2/3C.3/4D.11/12【答案】B 116【解析】111111一+ー—―X———X-334343PI^J-i]=尸(4)+尸(4)+尸(4)一ア(44)一尸(「.も)一尸(44)+ゝP产1444),由于随机事件4,4,4相互独立,则111112——x—+—x—x—=—334333o20台冰箱中16台~"级品、4台―1级品,在运输中损坏2台,损坏的是1台一级品和1台—・级品的概率为()。[四川大学2013研]A.0.3368B.0.0316C.D.巾11丄1丿,故概率为=0.3368。0.66320.9684【答案】A【解析】事件空间总个数为,该事件包含的基本事件个数为设某运动员投篮命中率为0.8,则其一次投篮投中的数学期望为()。[首都经济贸易大学2012研]A.0.16B.0.2C.D.0.8【答案】D【解析】记X为一次投篮投中的次数,则X的概率分布列为:0.20.8则该运动员ー次投篮投中的数学期望为E(X)=°x°2+1x0S=0.8。 117设A,B,C都是事件,通过事件运算得到A,B,C,A,B,で中某些事件的交及并的表达式,ス+ゑ+の表示()。[中山大学2012研]A.事件A,B,C中至少有一个发生B.事件A,B,C中至少有两个发生C.事件A,B,C中至少有一个不发生D.事件A,B,C中至少有两个不发生【答案】C【解析】事件A,B,C中至少有一个发生的表达式为:A+B+C;事件A,B,C中至少有两个发生的表达式为:.4B+BC+AC.事件A,B,C中至少有两个不发生的表达式为:J5+8C+HC;事件A,B,C中至少有一个不发生的表达式为:メ+3+C。If°121离散型随机变量号的分布列为1°ユa”,其中4b是未知数,如果已知自取1的概率和取2的概率相等,则。=()〇[安徽财经大学2012研]A.0.2B.0.3C.0.4D.0.5【答案】C【解析】由随机变量分布的性质可知,0.2+a+b=l,又因为a=b,所以a=i=0,40甲乙两人独立对同一个目标各射击一次,命中率分别是0.6和0.5,现已知目标被射中,则该目标是甲射中的概率为()。[浙江工商大学2012研]A.0.6b.n6_c.nD.0.75【答案】D 118【解析】记事件4a分别表示甲乙两人独立对同一目标击中,事件B为目标被击中。由于事件4与事件4是相互独立的,故有ア(ム&)=尸(4)尸(4)=05x06=03P(5)=P(AXU4)=尸(4)+尸(4)_尸(44)=0.6+06-0.3=0.8,尸(415)=PW)_P(4)_0.6.’P(B]P(B]0.8—设随机变量X~N*,2,),且ア(X>a)=尸(Xa)=尸(Xa)=0.5,即〇处在正态分布的中心位置,根据题干中的条件可知该分布关于4=3中心对称,所以。=3。将ー颗质地均匀的硬币先后抛掷3次,至少出现2次正面的概率是()。【中央财经大学2011研]A.1/4B.3/8C.1/2D.5/8【答案】C6ぜ+C1【解析】记x为抛掷3次硬币出现正面的次数,根据古典概率计算公式可知:设函数f(x)在区间(a,b)上等于0.4,在此区间之外等于〇,如果f(x)可以作为某连续型随机变量的密度函数,则区间(a,b)可以是()。【中央财经大学2011研]A.(0,0.5) 119A.(0.5,2.5)B.(1,2.5)C.(0,2.5)【答案】D「/(x)ctc=0.4c£r=0.4(i-a)=1【解析】根据概率密度函数的性质可知,解得,b-a=2.5,只有D项满足条件。/(X)=―设随机变量く的概率密度为"2病e4(70 120若事件A与B互不相容,下列命题正确的是()。[江苏大学2011研]A.A\jB=QB.A与B为对立事件C.スつ3D.スつア【答案】C【解析】事件A与B互不相容,则メ"5=。,スつ&ラつメ;イ与5为对立事件,则メ03=。且aU5=c设A,B是两事件,°<尸(㈤<1,尸(3)>0,p⑺|a)=P(BI工),则必有()。[江西财经大学2006研]A.P(AIB)=P(ス|B)B.P(AIB)#P(ス!B)C.P(AB)=P(A)P(B)D.P(AB)/P(A)P(B)【答案】C【解析】尸(BY)=产(必尸(⑷网’和鬻尸¢3)-PQ13)匚反ぶ尸(一18)一尸(J)尸(.")=尸(J)尸(3)-P(J)尸(・必)P(.1B)_P(g)-P(.18)已知P(B|A)=P(B|ス),即尸(⑷レア(④’则有:化简得PCAB)=P(A)P(B)〇设A和B是任意两个不相容的事件,并且P(A)ナ。,P(B)ナ〇,则下列结论中肯定正确的是()。A.N与ア相容B.ス与ア不相容C皿=尸(メ)尸(めDP(J-5)=P(^)【答案】D【解析】A和B是任意两个不相容的事件,则 121A、B两事件没有相同的样本点,但ス与ア不一定没有相同的样本点,即ス与B不一定相容,也不一定不相容;P(A)邦,P(B)邦,则P(A)P(B)#),而P(AB)=0,故P(AB),P(A)P(B);尸(メー3)=尸(.疝)=尸(d(C—B))=尸(X)ー尸(.15)=尸(d)处于正态分布概率密度函数与横轴之间并且大于均值部分的面积为()。A,大于0.5A.-0.5B.1C.0.5【答案】D【解析】对于正态分布的概率分布函数,当xVj!时,F(x)<0.5:当x=j!时,F(x)=0.5;当x>ド时,F(x)>0.5〇题中大于均值的面积S=1—F(卩)=1-0.5=0.5。现在有10张奖券,其中8张为2元,2张为5元,某人从中随机地无放回抽取3张,则此人得奖金额的期望是()。A.6B.7.8C.9D.12【答案】Bcf=2_【解析】设X为得奖金额,则当X=6时,P(X)=Go15;当x=9时,P(X)=CiC;7_C;C+1gづ;当x=12时,P(X)=G。=15,那么期望值为E(X)=下面关于n重贝努里试验的叙述中,错误的是()A,试验包含n个相同的试验B.每次试验成功的概率p都是相同的C.试验结果对应于ー个离散型随机变量D,在n次试验中,“成功”的次数对应ー个连续型随机变量【答案】D【解析】n重贝努力试验的特征:①试验包含n个相同的试验;②每次试验只有两 122个可能的结果:成功或失败;③出现成功的概率p对每一次实验都是相同的,失败的概率q也不变,且p+q=l;④试验是互相独立的;⑤试验结果对应于ー个离散型随机变量。二、简答题什么是小概率事件?它有什么实际的意义?[浙江工商大学2015研]答:(1)小概率事件的含义:在概率论中将概率很接近于。,即在大量重复试验中出现的频率非常低的事件称为小概率事件,一般多采用0.0卜0.05两个值即事件发生的概率在0.01以下或0.05以下的事件称为小概率事件。(2)小概率事件的实际意义:分析小概率事件有利于更好的利用它,控制其发生的条件,使它朝着我们所期望的方向发展,避免破坏性的小概率事件发生。正态分布的概率密度函数ハエ)有两个参数”和び,请结合函数”ス)的几何形状说明4和び的意义。[安徽财经大学2012研]答:正态分布的概率密度函数是ー个左右对称的钟形曲线,参数以是这个曲线的对称轴,是位置参数,决定了正态曲线的中心位置,并在处达到最大值,此时ん2m,同时4也是正态分布的数学期望:而参数び是形状参数,它的大小决定了曲线的陡峭或扁平程度,ぴ越小,则曲线的形状越陡峭,越集中在对称轴x=4的附近;び越大,曲线越扁平。这和ザ是正态分布的方差的直观意义一致。当〃=。。’=1时,称为标准正态分布,即为N(0」)。概率与频率有什么联系与区别?答:(1)概率与频率的区别:概念不同,适用场合也不同。概率是指随机事件发生的可能性,或称为几率,是对随机事件发生可能性的度量。频率是指n次重复试验中,某事件发生的次数占总次数的比例。(2)概率与频率的联系:当试验的次数n很大时,如果频率在某ー数值P附近摆动,而且随着试验次数n的不断增加,频率的摆动幅度越来越小,则称P为事件A发生的概率。或者说,当试验的次数n-8时,频率收敛于概率。两者的取值都在。〜1之间;概率之和等于1,频率之和也等于1。何谓全概率公式?何为贝叶斯定理?答:(1)全概率公式对于ー些比较复杂的事件,可先将复杂事件分解为ー些较简单的事件,再结合加法法则和乘法法则,计算出所要求的概率。设试验E的样本空间为S,B为E的事件,A,,A2,...,A“是ー个完备事件组(互斥事件),事件B仅当完备事件组Ai(i=l,2,...,n)发生时才能发生,且P(A,)>0,则: 123B=B(A1+A2+…+An)=BAi+BA?+…+P(B)=P(A.)-P(BIA.)+P(Az)P(B|A2)+...+P(A„)P(BIA„)=Vp(4),p(5|4)(2)贝叶斯定理设试验E的样本空间为S,B为E的事件,A,,A2,...,A.是一个完备事件组(互斥事件),事件B仅当完备事件组A,(i=1,2,...,n)发生时才能发生,且P(B)>0,P(A;)>0,则:RBI4)/ス)尸(514*(4)P(.4j5)=-ム)既ム)ド⑺>1I,C9=1,2,,,,9n二、计算题某学校的班车在路上所花的时间服从正态分布,且均值为40分钟,标准差为5分钟。班车每天7:10时出发,要求8:00之前到达另外一个校区。已知标准正态分布表:①①ロ)=0.8413,①,2)=0.9772。请计算:(1)班车迟到的概率。(2)该班车10月份共发车16次,计算该班车10月份从不迟到的概率。[中央财经大学2014研]解:(1)记X为班车在路上所花的时间,已知刀一"门。:“),p(^>50)=i-p(Ar<50)=i-p;50~40;I55丿=1-¢(2)=1-0.9772=0.0228 124(2)由(1),该班车不迟到的概率为1-0.0228=0.9772«共发车16次,则从不迟到的概率为0.9772號。甲、乙两个异地汽车经销商均出售某种汽车。根据记录,甲经销商该型号汽车的百辆月销量从参数为1的泊松分布,乙经销商该型号汽车的百辆月销量服从参数为2的泊松分布。两个经销商在同一个仓库提货。问:该仓库每月应该准备多少辆汽车才能以不小于90%的概率保证顾客的需求。[四川大学2013研]表4-5泊松分布表,・、AXtr1IT(W)XX=1X=2入=3X=410.630.860.940.9820.260.590.800.9130.080.320.580.7640.020.140.350.575O.(X)40.050.180.3760.00060.010.080.21解:设X、Y分别表示甲乙两个经销商的销售数量,a表示满足要求时所需的库存量。则依P(X+Y>a)=lー尸(a)<10%题意有X二尸⑴ス、尸(2),尸(X+丫ヱ。)290%,即由泊松分布的可加性知:X+Y〜尸(3),查泊松分布表可知,服从参数为3的泊松分布当x=6时,l-F(x-l)<10Q。,故库存量为a=x-l=5时满足要求。:已知随机变量Y的概率密度为: 125/(>')=,0,y<00.25,0 126解:设随机变量X为10个电阻器中不合格的个数,则其中有两个不合格的概率为:(D尸(才«2)-C初/Yx0.)x0.9s-0.1937/ユグ1FX〇"P(^=2)»±-^-=.!—1-=0.18392!2!(2)泊松参数ス=+=10x0.1=1,并将其带入泊松分布公式得: 127第五章抽样分布与参数估计5.I复习笔记ー、抽样的基本概念与数学原理有关抽样的基本概念统计推断是在对所要研究的总体进行概率抽样的基础上,利用有关的抽样分布,根据样本数据去估计或检验总体的数量特征。(1)概率抽样的基本概念①样本容量样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用〃表示,它表明一个样本中所包含的单位数。一般地,”230的样本称为大样本,“<30的样本称为小样本。②样本个数样本个数又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多少与抽样方法有关。③总体参数总体分布的数量特征就是总体的参数,也是抽样统计推断的对象。常见的总体参数有:总体的平均指标,总体成数(比率)指标,总体分布的方差、标准差等。总体成数(也称总体比率)指标则是指总体中具有某种性质的单位数目在总体中所占的比重,它反映了总体的结构特征。④样本统计量与总体参数相对应的是样本统计量。由于样本统计量是样本的ー个函数,因此,它们是随以上式中,ア是样本平均数,P是样本比率,S:与S分别表示样本的方差与标准差。〃是样本容量,均是样本中具有某种性质的单位数目,ア是在分组样本资料下的权数。ェX:,丫=工机变量。常见的样本统计量有“Z(八©广工Xf尸=ヨs2=——正一x“一七Z/-1丿,S=が。 128(2)概率抽样及其组织形式①概率抽样的概念概率抽样,就是要求对总体的每一次观察(每一次抽取)都是一次随机试验,并且有和总体相同的分布。②概率抽样的组织形式抽样的组织形式主要有:简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样等。(3)放回抽样与不放回抽样当所研究的总体为有限总体时,简单抽样又分为放回抽样与不放回抽样。①放回抽样放回抽样的具体做法是:从总体中抽出ー个样本单位,记录其标志值后,又将其放回总体中继续参加下ー轮单位的抽取。放回抽样具有如下特点:a."个单位的样本是由〃次试验的结果构成的;b.每次试验是独立的,即其试验的结果与前次、后次的结果无关;c.每次试验是在相同条件下进行的,每个单位在多次试验中选中的机会(概率)是相同的。②不放回抽样不放回抽样的具体做法是:每次从总体抽取ー个单位,记录其标志值后不放回原总体,不参加下ー轮抽样,下一次继续从总体中余下的单位中抽取。不放回抽样具有如下特点:a.”个单位的样本由〃次试验结果构成,但由于每次抽出不放回,所以实质上相当于从总体中同时抽取〃个样本单位;b.每次试验结果不是独立的,上次中选情况影响下次抽选结果;c.每个单位在多次(轮)试验中中选的机会是不等的。(4)抽样分布从总体中可以随机地抽取许多样本,由每ー个样本都可以计算样本统计量的观测值,所有可能的样本观测值及其所对应的概率便是抽样分布。2.大数定理与中心极限定理(1)大数定理①定义 129独立同分布的随机变量メ,エ「.、看…,并且有数学期望七(乂)=〃及方差产(ム)b(i=L2,…)。则对任意的正数の有limp丿—VX-H<£}一I”占.ノ由于从总体中抽出的样本是独立且与总体同分布的,因此,当样本容量充分大时,样本平均与总体平均之间的误差可以有很大的把握被控制在任意给定的要求之内,这就是人们用样本平均估计总体平均的理论根据。②贝努里大数定理设阳是〃次试验中事件メ发生的次数,。是事件,发生的概率,则对于任意小的正数limp£,有(2)正态分布的再生定理如果变量X服从正态分布,总体的平均数是4,标准差是ぴ,从这个总体中抽出ー个容量是”的样本,则样本平均数ア也服从正态分布,其平均数日“)仍为其标准差为ル«。(3)中心极限定理①样本平均数的中心极限定理如果变量x的分布具有期望值”和标准差び,从这个总体抽取容量为〃的样本,则当〃趋于无穷大时,样本平均数万近似服从正态分布,其平均数々マ)仍为以,其标准差为びホ.②样本比率的中心极限定理从任ー总体比率为タ、方差为〇。ー〇)的(0」)分布总体中,抽取容量为“的样本,其样本比率p的分布会随着〃的增大而趋近于平均数为タ,标准差为‘而⑶"的正态分布。二、抽样分布样本平均数的抽样分布(1)样本平均数的期望值与方差①放回抽样的情况设从总体中抽出的样本为る孙…它们是相互独立的,并且与总体服从同一分布。设总体均值为",方差为 130び,则样本平均数的期望值与方差分别为国"六“,%n②不放回抽样的情况样本平均数的期望值同样等于总体的期望侑.。而样本平均数的标准差为4,KNー〃]ヽVlNTj,其中N为总体单位数。与放回抽样相比,这里多了一个爪、一1丿\',这个系数称为不放回抽样的修正系数(2)样本平均数的分布规律当总体x服从正态分布时,根据正态分布的再生定理,样本平均数服从正态分布,即万ニn307R。当总体不服从正态分布时,根据中心极限定理,只要样本容量〃足够大,样本平均数ア仍近似地服从正态分布,ザ/")。2.样本比率的抽样分布(1)样本比率的期望值与方差设随机变量x服从两点分布,其总体平均数(总体比率)为〃,总体方差ビ二"(】一°)〇对其进行n次独立重复观测得到下列样本:(冷セ,…,X")其中,观测结果为“成功”的次数是尸=空样本中“成功”的次数所占比率定义作样本比率P,且有n。则 131M(i-P)在不放回抽样条件下,有关结论与样本平均数相类似,即石(尸)二°,5一Fm一ホ立ア万丿。(2)样本比率的分布规律中心极限定理表明,当“充分大时,样本比率近似服从正态分布,P。ーP)]ゝ〃ユ这里大样本的条件是:"〇和"〇ー〇)都要大于等于5。实际工作中,当O.lWpWO.9,〃符合表5-1要求的大小时,就可以认为P近似服从正态分布。总体与《(P0.500.450.400.350.300.25a200.150.100.500.550.600.65o.7い0.750.800.850.90样本ft至少为It3637334043485771100表5-1用正态分布来近似时对样本量的要求(3)样本方差的抽样分布(«—1)5*来自正态总体的样本容量为〃的简单随机样本,统计量グ服从自由度为("ー1)的デ分布,即~/("-I),(n-l)S2(7*Z=~~~7—三、参数估计参数估计概述(1)参数估计的定义与种类参数估计,是指用样本统计量去估计总体的未知参数(或参数的函数)。参数估计有两种基本形式:点估计和区间估计。(2)点估计点估计,主要有矩估计法和最大似然估计法。设有随机样本(爲区」'X"),构造随机样本的ー个适当函数J"(冷も…,修)作为对8的估计。这时,把7(甬,も,…,X")称作©的估计量,记作8=7(孙セ,…,$)。 132(3)估计量的优良标准点估计的优良性包括以下四条标准:①无偏性无偏性是指估计量抽样分布的数学期望等于被估计的总体参数,即有可の②有效性又称最小方差性假定有两个用于估计总体参数的无偏估计量,分别用友和瓦表示,它们的抽样分布的方差分别用和外"」表示,瓦的方差小于瓦的方差,即。幻<必必レ就称瓦是比あ更有效的ー个估计量。③一致性一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性越来越小,接近于〇〇用公式表示就是illI,,式中£为ー任意小的数。④充分性估计量タ包含了样本中关于6的全部信息。(4)区间估计与估计的精度和可靠性①区间估计的概念区间估计,实质上是用两个互相联系的样本统计量给出タ的区间。即以司和タ分别作为总体参数タ区间估计的下限与上限,同时要求该区间将タ包含在内的概率应达到一定的程度。即尸(仇""ル〜,式中被4和巴框定的区间叫做置信区间。应ー3=△叫做抽样极限误差,它可以反映抽样估计误差的最大范围。把置信区间能够包含,的概率叫做置信度,即式中的「a。②估计的精度和可靠性参数的区间估计满足以下两个要求:a.估计的精度要求精度要求就是估计误差必须控制在一定的范围内。b.可靠性要求可靠性是指估计结果正确的概率保证,可用置信度来反映。2.总体均值的估计设随机变量メ〜Aユルザ),(用,乂,…,%)是取自X的简单随机样本。则有各个 133%(i=L2L,〃)独立,并且与オ有相同的分布,即正二一、‘(ルb)。(1)总体方差メ已知的情形①点估计②区间估计7X-flZ=将ア进行标准化后得到火,显然Z是标准正态变量(如图5-1),在图5-1的两个尾部各取面积a/2,临界值分别为ーz*和+z*,则有尸(マリ 134,抽样极限误差为:总体均值的置信度为l-a的区间估计为:白々吋(2)总体方差び未知的情形—1ねM=X=-£X,nz-1①点估计②区间估计由于总体方差び未知,因此,需要用总体方差的无偏估计量ア来代替び。则有ヽ,エ)作不等式的等价变换后得到:尸(X-0(〃T)S]<〃<マ+%式”-1)5不|=1_&〇a.放回抽样的场合5S由于、因此总体均值的置信度为l-a的区间估计为:"土‘卬忑白川,!_抽样极限误差为:ゆ赤。b.不放回抽样的场合s_=ド,ア]由于因此总体均值的置信度为l-a的区间估计为:AS]N-n抽样极限误差为:一‘ヰ五]かー13.总体比率的估计(1)点估计(2)区间估计类似于总体均值的区间估计,总体比率的区间估计是产土z*%,式中的样本比率标准差在放回抽样条件下是 1350〇=BEZ).巨?V”。在不放回抽样的条件下是‘v«v.v-i3.总体方差的估计d3=s2=—y(A;-jrーダ「丿(1)点估计(2)区间估计(n-l)£由于び2'ノ,在自由度为〃ー1的Z分布的两个尾部各自截取面积a/2,得到两个尾部临界值に:("ー】)和たし如图5-2所示,于是得到:D(〃T)S,H(M-l)S2),!”叽(〃ーD.“べ〃ーn丿,因此总体方差的置信度1-a的置信区间为.(w-l)S:(n-l)S:ヽ[心(〃ー1)‘比—ノ 136图5-2Z分布的双侧取值四、样本容量的确定问题的提出通过增加样本容量〃有可能降低样本平均数的标准差,从而实现既保证一定的估计精度,又具有较高的置信度的目的。但此时需要考虑在给定的置信度与极限误差的前提下,样本容量〃究竟取多大合适?这就是样本容量的确定问题。2.估计总体均值时样本容量的确定(1)总体方差已知,放回抽样A=Zaf2n=ヰへ这时有G»平方后得到A-(2)总体方差已知,不放回抽样/b这时有一"ミホ、礼平方后得到ーVA'+z[b由以上式子,可得出以下几点结论:①在保证精度和可靠性的前提下,总体方差越大,必要的样本容量n越大。即必要样本容量n与总体方差成正比。②必要的样本容量n与允许的极限误差△成反比。即在给定的置信水平下,允许误差越大,样本容量就可以越小;允许误差越小,样本容量就必须加大。③必要的样本容量n与可靠性成正比。也就是说,我们要求的可靠程度越高,样本容量就应该越大。3.估计总体比率时样本容量的确定 137采用与上述推导估计总体均值的样本容量相类似的方式,可以推导出以下公式:zス尸。一尸)(1)放回抽样呪ア(1ーア)NAj+zスア(1ー尸)(2)不放回抽样2.使用上述公式应注意的问题(1)计算样本容量时,总体的方差与成数常常是未知的,这时可用有关资料替代:①用历史资料已有的方差与成数代替;②在进行正式抽样调査前进行几次试验性调査,用试验中方差的最大值代替总体方差;③比率方差在完全缺乏资料的情况下,就用比率方差的最大可能值。.25代替。(2)如果进行一次抽样调查,需要同时估计总体均值与比率,可用上面的公式同时计算出两个样本容量,取其中较大的结果,同时满足两方面的需要。(3)上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如,计算得到〃=5693,那么,样本容量取57,而不是56。五、Excel在参数估计中的应用在Excel中,主要是使用公式与函数实现区间估计的有关计算,涉及的函数主要有:平均数函数AVERAGE,求样本容量的函数COUNT,求样本标准差的函数STDEV,求平方根的函数SQRT,求T分布或标准正态分布下临界值的函数TINV、NORMSINV。使用这些函数,可以构造出ー个专门用于实现区间估计的通用工作表。表5-2 138佔计対象估计M区间估计总体均值ム0X•ラ七X,1①总体力差巳知:ス土。r?Vn②总体方足未短:"土,•メー‘三总体比率0=Pエ也rnp±w叩总体方差ポーザNナ£(X,-X〉2/(w-ds8<»-ns>\(る注:该表中只列出放回抽样场合的估计公式,不放回抽样场合,均值和比率只是对样本统计量的标准差加以修正,即乘以修正系数。 1395.2课后习题详解ー、选择题(可选多项)以下属于概率抽样的有()。A.网民自由参加的网上调查B.体育彩票摇奖C.按随机原则组织的农产量调查D.街头随意的采访【答案】BC【解析】概率抽样,又称随机抽样,是遵循随机原则进行的抽样,总体中每一个单位都有一定的机会被选入样本。只有概率抽样,才能进行科学的统计推断。方便抽样是指调査过程中由调査员依据方便的原则,自行确定入抽样本的单位。由此可知A、D项都是方便抽样,属于非概率抽样。样本统计量的标准差与抽样极限误差间的关系是()。A.样本统计量的标准差大于极限误差B,样本统计量的标准差等于极限误差C.样本统计量的标准差小于极限误差D.样本统计量的标准差可能大于、等于或小于极限误差【答案】D【解析】设E代表抽样极限误差,则与估计误差之间的关系为:E〇一・«。由此可知样本统计量的标准差可能大于、等于或小于极限误差。在其他条件不变的情况下,如果重复抽样的极限误差缩小为原来的二分之一,则样本容量()。A.扩大为原来的4倍B.扩大为原来的2倍C.缩小为原来的二分之ー 140D.缩小为原来的四分之ー【答案】A【解析】E=gz平«,根据公式可知,如果极限误差缩小为原来的二分之一,则在其他条件不变的情况下,样本容量扩大为原来的4倍。当样本单位数充分大时,样本估计量充分地靠近总体指标的可能性趋于1,称为抽样估计的()。A,无偏性B.一致性C,有效性D,充分性【答案】B【解析】一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性一呻“トジ1越来越小,接近于〇。用公式表示就是公式中,£为一任意小的数。上式说明,当〃充分大时,タ与9之问的偏差,可以有很大的把握被控制在任意给定的范围之内。当〃趋于无穷大时,估计量依概率收敛于タ。抽样估计的误差()。A,是不可避免要产生的B.是可以通过改进调查方法消除的C,是可以事先计算的D,只有调查结束之后才能计算【答案】AC【解析】抽样误差是由于抽样的随机性引起的样本结果与总体之间的误差。抽样误差是一种随机性误差,只存在概率抽样中,在概率抽样中,抽样误差是不可避免的。但是,用大数定律的数学公式,是可以事先计算的。 141二、计算题 142根据长期实验,飞机的最大飞行速度服从正态分布。现对某新型飞机进行了15次试飞,422.2417.2418.7428.2431.5413.5425.6438.3441.3425.8434.0423.0423.1412.3420.3测得各次试飞时的最大飞行速度(单位:米/秒)为试对该飞机最大飞行速度的数学期望值进行区间估计(置信概率0.95)。解:由于总体服从正太分布,〃=15,小样本,0未知。X±ta:(n-lマーロ构造统计量忑服从,(“D,则置信区间为:“一而ヽ,4典=2.1916样本平均数ア=425,样本方差S:i=S'=72.049,&=8.488,忑=イ道,一(15-1)=2.]448,ム=赤=2.1448x2.1916=4.7005所求”的置信区间为:425-4.70<^<425+4.70,即(420.30,429.70)〇自动车床加工某种零件,零件的长度服从正态分布。现在加工过程中抽取16件,测得长12.1612.0312.0112.0112.0312.0612.1412.1212.0112.2812.0912.0612.1312.0712.1112.08度值(单位:毫米)为试对该车床加工该种零件长度值的数学期望进行区间估计(置信概率0.95)〇解:由于总体服从正太分布,n=16,小样本,0未知。X-n构造的统计量ぶ服从‘("T),则置信区间为:样本均值ア=12.09,样本标准差S;lS%=0.005,$=0.0707SSx=y/»=0,0707Z屈=0,0177,f0025(15)=2-131△=、ー^=0.0177x2.131=0.038置信区间为:(12.09-0.038,12.09+0.038),即M952,12.128)。 143用同样方式掷某骰子6(X)次,各种点数出现频数如表5-3所示。点数1234s6合_计ー出现蟆敢601001508090120600表5-3试对一次投掷中发生1点的概率进行区间估计(置信概率0.95)。解:n=600,p=0.1,ゆ=60>5,可以认为总体为大样本,同时随机变量服从二项分布。a=0.05,Za/1=Zqb5=L96p-Tt下〇)构造统计量:Vヰ近似服从正态分布,则置信区间为:A=1.96x/0.lx0.94600=0.0122x1.96=0.024因此,一次投掷中发生1点的概率的置信区间为(0.076,0.124)〇若在上述第2题中,零件长度的技术标准为12.10毫米,公差范围规定为(12.10土0.05)毫米。试根据样本数据对该车床加工该种零件发生长度不合格的概率进行区间估计(置信概率0.95)〇解:根据题意,零件长度的技术标准为12.10毫米,公差范围规定为(12.1010.05)可知抽取的样本中不合格的零件长度件数有7个,不合格率「=7/16。由于〃=16为小样本,故采用,统计量。则该车床加工该种零件发生长度不合格的概率置信区间为: 144P土如式…代入数据得置信区间为:(0*75±0.2643),即(0.173207018)。某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。他们从某地区已购买了微波炉的2200个居民户中用简单随机不还原抽样方法以户为单位抽取了30户,询问每户ー个30045090050700400520600340280380800750550201100440460580650430460450400360370560610710200月中使用微波炉的时间。调查结果依次为(单位:分钟)试估计该地区已购买了微波炉的居民户平均ー户ー个月使用微波炉的时间。yV=14820y=8858600解:根据已知条件可以计算得:占"’,ルー1ラ—估计量""z"’=30xl4820=494(分钟)I")=,(y)=—(1-—)=丄ーハー~([--)=1743.1653〃.V30292200估计量的估计方差153752029=53017.93-——x(8858600-30x494*1得S=230.26 145某大学有本科学生4000名,从中用简单随机抽样方法抽出80人,询问每个人是否有上因特网经历。调査结果为,其中有8人无此经历。试估计全校本科学生中无上网经历的学生所占比率。解:已知:〃=80,为大样本,故采用z统计量。P=01,a=0.05,z,/:=196V80,则置信区间为:ダ=ム,即(0.0343,0.1657)〇全校本科学生中无上网经历的学生所占比率的区间估计为:(0.0343,0.1657)某中学老师想要考察该校学生英语考试成绩的离散程度,先随机抽取了41位考生,并求出他们成绩的标准差S=12,设全校学生英语成绩服从正态分布。试根据上述资料,对全校学生英语考试成绩的离散程度即总体方差进行置信度为95%的区间估计。解:5-l)S:(n-l)S:751n-b,ソ2Xa/1Zl-a/2_40xi2240x12?一;59.342'24.433=(97.064.235.747)%ダ5A=24.433,点〇"セ=59.342,置信度为0.95的置信区间为:某城市有非农业居民210万户,从中用简单随机抽样方法抽取出623户调查他们进行住宅装修的意向。调查结果表明,其中有350户已经装修完毕,近期不再有新的装修意向;有78户未装修也不打算装修;其余的有近期装修的意向。试估计该城市非农业居民中打算在近期进行住宅装修的居民户数。解:设该城市非农业居民中打算在近期进行住宅装修的居民户数为x。由题意知:调查的623户中有623-350-78户有装修意向。x_623-350-782100000623则解得x=657303所以该城市非农业居民中打算在近期进行住宅装修的居民户数为657303。ー个市场分析人员想了解某一地区看过某ー电视广告的家庭所占的比率。该地区共有居民1500户,分析人员希望以95%的置信度对总体比率进行估计,并要求估计的误差不超过5个百分点。另外,根据先前所做的一个调査,有25%的家庭看过该广告。试根据上述资料,计算要进行总体比率的区间估计,应当抽取的样本单位数。 146ヽ,ー尸0ーア)_1500xL96Ao.25x(1-0.25)NA/+z%;ア。ー尸)1500x0.05:+1,96:x0.25x(l-0.25)解:由题意知=241.695应抽取242户进行调查。 1475.3考研真题与典型习题详解ー、单项选择题ア为样本均值,则ゴ设Xi,X2,…,X”为来自正态分布・ルメI的样本,其中戸为已知,的最大似然估计为()。[中山大学2015研]A.济可ローエ匹ー刈B.謂J「笠図ー”C.”占【答案】C£(ゴ)=口ア-0毋【解析】似然函数为:£(七ーが(2がザ对数似然函数为:«,0こ(演ッ)Z«1对对数似然函数求导得:一・ラ纟(/一“二°所以,び的极大似然估计为:设随机变量X和丫独立同分布,其分布为正态分布-『ルび),则(X+F-プ 148分布为()。[中国科学技术大学2013研]A.自由度为1,1的F分布B,自由度1,2的F分布C.自由度为2,1的F分布D,自由度2,2的F分布【答案】A【解析】随机变量X和丫独立同分布,X4ユザレ】7い。、则有X+F-2ル〜N(0,2ゴ)xt~"(o,2吸即(&,〜・⑴,(笠〜ガ⑴,因此(X+y-2〃),(XT『-F(l.l)设岗,厶…K来自总体“("バL且相互独立,则随机变量デる氏ー“且デ(〃ー1)服从的分布是()。(西南大学2012研]BハエJC.必",心)D.デ(〃)【答案】D【解析】设%,冬,…,凡・是来自总体"(以び)的样本,则有0〜AI") 149Z(1)rry,オトふ…名是相互独立的,—Z(正ー〃),〜ガ(〃)则随机变量。tr'已知总体的均值为60,标准差为10,从该总体中随机抽取样本量为100的样本,则样本均值的数学期望和方差分别为()。【武汉大学2012研]A.60,1B.6,10C.60,0.1D.6,1【答案】A【解析】记总体为X,其均值为"=60,标准差为c=10,设ム…,正8,为从总体中抽取的简单随机样本,则16566日お=4荻さセ=旃41乂=丽②リ/。样本均值的方差为二-xiocひ蜀」Rr=J-w=110000100100考虑总体均值的95.44%置信区间,已知总体服从正态分布且标准差为10;要使得到的置信区间的半径不超过1,需要的最小样本容量为()。[中山大学2012研、2011研]A.100B.400C.900D.16(X)【答案】Bスヌダユ0x10父【解析】置信区间半径=アあ解得“240〇。当。未知时,正态总体均值〃的置信度为1ーひ的置信区间的长度为()。[浙江工商大学2012研]A.丁し(かテしST)B.5T 150テz.A.52B.2』-l)【答案】B【解析】当び未知时,正态总体均值”的检验采用,统计量,在显著性水平a下的置信区间为::«,所以置信区间的长度为«丫〇95%的置信水平是指()〇[江苏大学2012研、中央财经大学2011研]A.总体参数落在ー个特定的样本所构造的区间内的概率为95%B.总体参数落在ー个特定的样本所构造的区间内的概率为5%C.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为95%D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为5%【答案】C【解析】置信水平95%不是用来描述某个特定的区间包含总体参数真值可能性的,而是针对随机区间而言的ー个特定的区间“总是包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题,如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。考虑总体均值的95.44%置信区间,已知总体服从正态分布且标准差为10;要使得到的置信区间的半径不超过1,需要的最小样本容量为()。[中山大学2012研、2011研]A.100B.400C.900D.1600【答案】Bz.必_2.0x10f1【解析】置信区间半径=6«,解得〃240〇。以下关于参数和统计量的说法正确的是()。[中央财经大学2011研]A.总体参数是随机变量B,样本统计量都是总体参数的无偏估计量C.对ー个总体参数进行估计时,统计量的表达式是惟ー的D.样本统计量是随机变量 151【答案】D【解析】参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值,研究者所关心的参数通常有总体平均数、总体标准差、总体比例等,由于总体数据通常是不知道的,所以参数是ー个未知的常数。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数,是随机变X,,X“为独立同分布的随机样本,设统计量T(Xi,X2,…,X.)为ド=E(X)的无偏估计量。下面哪项指标小,表示用该统计量估计均值卩的可靠性好?()[中山大学2011研]A.Var[T(Xi,X2”..X.)]B.E[T(Xi,X2,...X„)]C.Var(X)D.max{X।,X?,...Xn}-min{Xi,X?,...Xn}【答案】A【解析】可靠性即指有效性,有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。设え%都是®的无偏估计量,且纤凤生e。,则称可比%更有效。故选用统计量T(Xi,X、…,X.)的方差。】已知某工厂生产的某零件的平均厚度是2厘米,标准差是0.25厘米。如果已知该厂生产的零件厚度为正态分布,可以判断厚度在1.5厘米到2.5厘米之间的零件大约占()。[浙江工商大学2011研]A.95%B.89%C.68%D.99%【答案】A【解析】根据3c原则,当ー组数据对称分布时,经验法则表明:约有68%的数据在平均数±1个标准差的范围之内;约有95%的数据在平均数±2个标准差的范围之内;约有99%的数据在平均数土3个标准差的范围之内。设总体オ〜デ(〃),メ、区、…、匕是样本,ア 152是样本均值,则()。[江西财经大学2007研】AE(乃=スハ(乃=2〇ど(乃=。(乃=2〃CE⑶=L。(乃=2E⑶=士.£>(©=”D.n【答案】A【解析】总体“〜デ⑺,则总体的均值和方差分别为;片n,g2n。所以E(ゐ=ji=n,。(め=ct2/n=2n/n=2。当抽样单位数增加3倍时,随机重复抽样平均误差比原来()。[首都经济贸易大学2007研]A.减少1/2B.增加1/2C.减少1/3D.增加1/3【答案】A【解析】在重复抽样条件下,样本均值的标准差(抽样平均误差)为总体标准差aaa1,——_而y/4n2ロ2的1/亚即ケブ当抽样单位数增加3倍时,即“'=4",则:14.在进行区间估计时()。[西安交大2007研]A.置信概率越小,相应的置信区间也越小B.置信概率越小,相应的置信区间越大C.置信概率越大,相应的置信区间越小 153D,置信概率的大小不影响置信区间的大小【答案】Aa【解析】置信区间的宽度为ハム或2S…3,则在其他条件不变的情况下,置信概率l-a越小,则zハ或:ハ越小,所以相应的置信区间也越小。15.设随机变量スニ,(〃),其中,»>1,令r=J_X,,则()。[中南财经政法大学2006研]A.Y~x2(n-1)B.丫〜y2(n)C.Y~F(1,n)D.Y-F(n,1)【答案】D【解析】因为随机变量X〜t(n),所以令,则有メ〜N(0,1),F_と_冬ケエ〜デ(〃),且两个变量相互独立。进而可知,X:X:服从自由度为(n,1)的F分布。设随机变量X和Y都服从标准正态分布,则()。[东北财经大学2005研,华中科技大学2005研,中山大学2015研]a.x+y服从正态分布B.ボ+び服从ガ分布C.ヌ2和尸都服从ブ分布D,ヘリ行服从ア分布【答案】C【解析】ABD三项在这两个随机变量是相互独立的情况下オ成立。满足下面()条件时,可以认为抽样成数的概率分布近似正态分布。A.n>30,np>5,nq>5B.n>30»np<5,nq<5C.n>30,np>5,nq<5 154D.吟30,np<5,nq>5【答案】A【解析】对于总体比例的估计,确定样本量是否足够大的一般经验规则是:区间P"GQ_P)‘中不包含〇或1,或者要求npN5,nq>5o样本均值ア是总体均值,的无偏估计的条件是()。A,样本容量必须充分大B.总体必须服从正态分布C.样本必须是随机抽取的D.总体方差必须已知【答案】C【解析】E(X)=£[-(乂+占+・“+X")]=_[E(X)+E(X2)+…+E(Z)]=""+い法正nn,故可知样本均值刀是总体均值以的无偏估计的条件是样本必须是随机抽取的。二、简答题给出t分布的定义,计算t的期望与方差,并回答当自由度趋向无穷时极限分布是什么。[华东师范大学2014研]答:(1)t分布的定义如下:t=_X_设随机变量X〜N(°」),F〜デ(〃),且X与】‘独立,则イ./〃,其分布称为t分布,记为«”),其中〃为其自由度。(2)计算t分布随机变量的期望和方差如下:Z=4=~K〃)£(Z)=£(-i)=£(X)£(-=J=)=0若随机变量イン”,则期望・ホ旧",方差O(Z)=E(Z-E(Z))'=E(Z:)=時)=E(ズ)xeJ)=(。⑶+(£(かメ昼)=足)=底)1/n1/n1fnYiア〜デ00,其密度函数为[どー>0小)=2吋§£(丄)イしゼエ^亠心び。.其他ー『「2飞)2%)!(3)随着自由度的增大,t分布的密度函数越来越接近标准正态分布的密度函数,即当自 155由度趋向无穷时极限分布是标准正态分布。实际应用中,一般当“230时,t分布与标准正态分布就非常接近。简述评价估计量的标准。[中央财经大学2013研、江苏大学2011研]答:评价估计量的标准有:无偏性、有效性、一致性。(1)无偏性E\e]=e若估计量(乂,又い…,%)的数学期望等于未知参数巴即:则称。为6的无偏估计量。估计量。的值不一定就是8的真值,因为它是一个随机变量,若。是タ的无偏估计量,则尽管。的值随样本的不同而变化,但平均来说它会等于タ的真值。(2)有效性设瓦=瓦(正ズレ…,与み=8"用.区,…,匕)都是8的无偏估计量,若对于任意た。,有以分区01み1且至少对于某ー个de。上式中的不等号成立,则称瓦较る有效。(3)一致性(相合性)lim尸陋”-8卜£卜1如果”依概率收敛于氏即V£>0,有则称。”是6的一致估计量。什么是极大似然法估计?它具有哪些优点?[暨南大学2011研]答:极大似然估计是1922年由R.A.Fisher提出的ー种参数估计方法。设X=(&,…,X")为从具有概率函数ア的总体中抽取的样本,。为未知参数或者参数向量。x=(演,…,当)为样本的观察值。若在给定x时,值"=8(x)满足下式:Z(。)=max£(x;8)则称i为参数8的极大似然估计值,而。a)称为参数9的极大似然估计量。若待估参数为9的函数g(の,则称g(の的极大似然估计量为g(あ。 156它的优点是:当存在ー个有效估计量时,似然方程就有一个等于有效估计量的唯一解,当“fH时,极大似然估计法的解依概率收敛于真值。什么是置信区间?说明置信区间对应的置信度的含义。[中央财经2010研复试]答:置信区间是指在区间估计中,由样本统计量所构造的总体参数的估计区间。如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率称为置信度,或称为置信水平。置信度l-a的含义:在随机抽样中,若重复抽样多次,得到样本メ,工,…,歪的多个样本值孙セ,…,毛,对应每个样本值都确定了一个置信区间(司.2),每个这样的区间要么包含了8的真值,要么不包含8的真值。根据伯努利大数定理,当抽样次数充分大时,这些区间中包含8的真值的频率接近于置信度(即概率),即在这些区间中包含的真值的区间大约有100(1-O。。个,不包含的真值的区间大约有100a。。个。三、计算题设正态分布随机变量X〜N(12,9)与Y〜N(10,16)相互独立。(1)分别求U=2X+Y与V=X-Y的分布,并说明U与V是否独立;(2)求概率P(12VX+YV32}。(用标准正态分布函数①(X)表示)[中山大学2014研]解:⑴EY=12,DX=9㈤『10,か=16,且x与丫相互独立,根据正态分布的性质知相互独立的服从正态分布的随机变量的线性组合仍服从正态分布,所以EU=E(2X+Y)=2EX+EY=34DU=D(2X+Y^=^DX+DY=52因此び二N(34,52)Cov(U,り=E(しリ-E(りE(り=E(2XZ-XY-产)-68=2EX'-EXY-EY1-EV=E^X-Y^=EX-EY=2DV=D^X-Y)=DX+DY=25因此レ二N(2,25)EX2=ハぽ+(£Y『=153EY2=DY+[EYy=116ォ与ア相互独立,因此EAT=EY"T120.因此.,ー。。い),〇Cov(L',F)=2?153120-116-68=2ノル(し)。(り由于在正态分布的场合,独立性与不相关性是一致的,因此U与V不独立。(2)令z=才+y,则EZ=E(X+Y)=EX^EY=22DZ=D(X+Y)=DX+DY=25因廿匕Z二N(22,25) 157/(X(1)设Xi,X\…,X”是来自概率密度为.〇,其他的总体的样本,S未知,求e的最大似然估计值。(2)设Xi,X2,…,X"是来自正态总体"ヽ1",1)的样本,と未知,求めス丫>2)的最大似然估计值。(3)设Xi,X2,…,X提来自总体外漓の的样本值,又»”"',求6的最大似然估计值。[首都师范大学2014研]丄(天の=n=ダ(ロモ)2解:⑴似然函数:号yyールい3丄(Kの)51n(の+("1)エ皿る)对数似然函数:ホ啊ム若仍)”,ぐー、对数似然函数对6求导:£e6と’E*)令导数为〇,得到タ的极大似然估计值:tre=P{X>2)=P(^—=1ー中(2—〃)(2)、,、11,6的极大似然估计值8=1一①(2一力,其中G为正态总体均值"的极大似然估计。下面求工 158din(丄(弘4))对数似然函数对ル求导:切Z(x:ー〃)=Z%ー〃〃tl=———=x令导数等于。得到"的极大似然估计〃〇因此,日的极大似然估计值合=1一①(2ーふ)=1-①(2_オ。(3)先求二项分布的参数タ的极大似然估计值。似然函数:厶匕e)=np(z=XiW=nc:び0ー①——/(Iーめ->口ぐ对数似然函数:山(丄(x;8))=£x/n(の+(“物-ZxJlnQーの+Zln(C:)对数似然函数关于®求导:eee\-eVxe=-^~令导数为〇得到,的极大似然估计mn。ーー3底因此,タ的极大似然估计值皿〇设总体X服从指数分布,zハス生x>0ハホ)寸。其它Xi,XX"为来自总体的简单随机样本。(1)求入的矩估计量;EGV)=じ7ム、;(2)求人的极大似然估计量。[东北财经大学2012研]解:(1)指数分布的均值为:」。X.”■+圣+…+%_1S.样本均值为:一〃ー〃£’令ア=1/ス,故ス=厅(2)要求未知参数入的极大似然估计量,可按如下步骤进行:写出似然函数:厶え)=rif(4え)=えス- 159Z(z)=wlnz-zVx对数似然函数:u'似然方程:比X-sn求解似然方程:即参数入的极大似然估计量为:な二_丄xtX对ー批产品(20000件)的质量进行抽样检验,随机抽出200件,发现6件不合格:(1)以95.45%(t=2)的概率保证程度推断这批产品的合格率范围。(2)若允许误差范围为2%,概率保证程度提高到99.73%(t=3)»其它条件不变,则至少应抽取多少件产品进行检验?[江苏大学2009研]解:(1)由于200/20000=1%,故可作为重复抽样来进行计算。由题意可知,合格产品的概率为0200,则在95.45%的概率保证程度下,这批产品的合格率范围是:\p(y-p)=97°o±2197〇ox3〇〇q200=97%±2.4%即(94.6%,99.4%)〇t睥-P)(2)允许误差为V"£(1-£)=97%x3%若』,则苧?ー所以至少应抽取655件产品进行检验。从ー批5000只日光灯中随机抽取1600只进行耐用时间的质量检验,已知该种型号的日光灯平均寿命为1500小时,标准差为800小时。分别按照重复抽样和不重复抽样两种方法计算样本平均寿命小于1550小时的概率。解:(1)按照重复抽样的方法由中心极限定理知,样本平均寿命53儀),则ザ双。’】),所以网』55。}=メ与也鼻牛—9938即在重复抽样的方法下,样本平均寿命小于1550小时的概率为0.9938。 160(2)按照不重复抽样的方法_〇iN-n由于是对有限样本的不重复抽样,所以样本均值的标准差’赤マふTx-1500x-1500,ヽA(0,1)800户000-160016.494J1600マ5000-1エ〜N(1500,(啓=、廖華め由中心极限定理知,样本平均寿命m600、5000-1,即—}臼爵マ需}—即在不重复抽样的方法下,样本平均寿命小于1550小时的概率为0.9988。 161第六章假设检验与方差分析6.I复习笔记ー、假设检验的基本原理假设检验的定义假设检验,是指事先对总体的参数或总体分布形式作出ー个假设,然后利用抽取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又被称为显著性检验。2.假设检验的步骤ー个完整的假设检验过程,包括以下几个步骤:(1)提出假设;(2)构造适当的检验统计量,并根据样本计算统计量的具体数值;(3)规定显著性水平,建立检验规则;(4)作出判断。3.原假设与备择假设(1)原假设原假设一般用H。表示,通常是设定总体参数等于某值,或服从某个分布函数等;(2)备择假设备择假设是与原假设互相排斥的假设,原假设与备择假设不可能同时成立。假设检验问题,实质上是要判断H。是否正确,若拒绝原假设H。,则意味着接受备择假设H”4.检验统计量检验统计量,是指根据所抽取的样本计算的用于检验原假设是否成立的随机变量。5.显著性水平、Pー值与临界值(1)显著性水平如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。假设检验中,称小概率为显著性水平,用a来表示,在应用中,通常取a=001,a=005o一般来说,犯第一类错误可能造成的损失越大,a的取值应当越小。对假设检验问题作出判断可依据两种规则:ー是Pー值规则;二是临界值规则。 162(2)Pー值规则Pー值,实际上是检验统计量超过(大于或小于)具体样本观测值的概率。如果P-值小于所给定的显著性水平,则认为原假设不太可能成立;如果P-值大于所给定的标准,则认为没有充分的证据否定原假设。(3)临界值规则根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。这种作出检验结论的方法,称之为临界值规则。6.双侧检验和单侧检验找出ー个临界值,将统计量的取值范围划分成拒绝区域与不能拒绝区域两部分。拒绝区域是检验统计量取值的小概率区域,可以将这个小概率区域安排在检验统计量分布的两端,也可以安排在分布的ー侧,分别称作双侧检验与单侧检验。单侧检验又按拒绝域在左侧还是在右侧而分为左侧检验与右侧检验两种。以服从正态分布的检验统计量Z为例,如图6-(b)左侧检验(〇右俯检验图6-1双側、単侧检验的拒绝域分配1所示。表6-1拒绝域的单、双侧与备择假设之间的对应关系拒绝域位置卜健檢舲的显著性水平判断标准原假设济择假设双側a/2Ho;H|キ仇^/左雅侧aH0l-Hi:”仄 163右単側aHo:際偏Hi,の次备择假设的不同表述的适用场合可归纳如表6-1所示。6.假设检验的两类错误显著性检验中的第一类错误是指:原假设事实上正确,可是检验统计量的观测值却落入拒绝域,因而否定了本来正确的假设,这是弃真的错误。。第二类错误是指:原假设事实上不正确,而检验统计量的观测值却落入了不能拒绝域,因而没有否定本来不正确的原假设,这是取伪的错误。在样本容量ね不变的条件下,犯两类错误的概率常常呈现反向的变化,要使a和刀同时减小,除非增加样本的容量。二、总体均值的假设检验单个总体均值的检验(1)总体为正态分布,总体方差已知来自总体的样本为对于假设ス:4=ル,在/z=4=~-v(°=i)同成立的前提下,有检验统计量(2)总体分布未知,总体方差已知,大样本来自总体的样本为(松ス"、孤),对于假设/:"=〃>,Z=N(〇」)成立的前提下,如果样本足够大(n>30),近似地有检验统计量Sソ”(3)总体为正态分布,总体方差未知来自总体的样本为(用スい…/"),_对于假设%:〃=外,在必X-&/ヽ成立的前提下,有检验统计量丹ル〇注意:若自由度(”T)230,该r统计量近似服从标准正态分布。(4)总体分布未知,总体方差未知,大样本来自总体的样本为(用スい…,%>),对于假设%:〃=外,在必成立的前提下,如果总体偏斜适度,且样本足够大,近似地有检验统计量Z=^^~N(0」)、師 1642.双总体均值是否相等的检验(1)两个正态总体,方差相等(但未知)两个正态总体为:总体1,用~"ル历);总体2,%~バル。;L并且,ゼ=ぞivvv\X\=—アム,=び。分别来自两个总体的样本为:样本1:(X山/,…,4J,そカ,s;=そー1占;样本2:(るセル,…小セ1,旳5,旳T](%T)S;+(%T)S:区+丄\"1+と-2マ〃In22(ムー同‘勺,并且,两样本独立。则有注意:当,+七ー2230时,上述检验统计量近似服从标准正态分布。(2)两个正态总体,方差モ相雙(也未知)Xi-Xz“[號+&这时,使用检验统计量、%と在原假设"。:从=出成立的条件下,由于封工封,统计量,不服从t一分布,但是其分布近似于t一分布,自由度近似地等于最接近ノ的自然数。ア的计算公式为:当自由度之30时,上述检验统计量近似服从标准正态分布。三、总体比例的假设检验单个总体比例的假设检验来自总体的样本为(%ム…■%),其中,各个XGL2只取1(“成功'')和。("失败”)两个值。样本中“成功”的次数为々。当”达到ー定程度时,样本比例P近似服从正态分布。因此,对于假设“。:0=タ。,在み。7-P~P-ビ。。ー0。)_成立的前提下,有V〃ーN(01)2.两个总体的比例是否相等的检验设有服从两点分布的随机变量&和エ,参数(“成功’‘概率)分别为片和ら。分别独立对这两个随机变量进行独立重复观测均次和旳次,观测结果为 165(ヘ餐・….ム)和(る1.%.…,占其中,每一次观测结果只取1(“成功,,)和。(“失败,,)两个值。对随机变量正的均次观测中“成功''次数为%,对随机变量区的巧次观测中“成功''次数为%,样本比例分别记作4=%/%和ら=牝ル:。为检验P1和0是否相等,建立原假设ム:。!=2=0。在原假设成立的条件下,有尸=(%+%)/(为+旳)=(4月+/月)/5+旳)z=----VI0,11#>(1ーア)(血+1饱)是タ的无偏估计量,当,和巧都充分大时,下面的检验统计量近似服从标准正态分布。即四、单因子方差分析方差分析的检验统计量开展方差分析需要先建立样本数据的方差分析恒等式SST=SSR+SSE式中,总变差平方和ssT=yyi\f-7.)1,7'’,组间变差平方和S2£す伍一工)=2>回一])ムロa…sse=zz(4一五)7J-1--1,组内变差平方和Zノ«4〇以上三式中的样本平均数定义为:_工!居1MルV=j=i=1yyv,总样本平均数占’匕ニー、y.各组样本平均数"’w其中,勺为各组样本观测值的个数,ス为所有样本观测值的个数,m是分组数目。可以证明,在原假设成立的条件下,下面的检验统计量服从分子自由度为SSR/(m-l)MSRIゝF=;-=Fw-l,w-wSSE/(〃ーm)MSE、J 166加一1,分母自由度为"ー物的F-分布。即2.关于方差分析的两点说明(1)方差分析中变量的类型方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。(2)总体的正态性和同方差方差分析适用于多个正态总体工(、ビ,••・加)均值的比较,且要求它们具有相同的方差。五、双因子方差分析双因子方差分析的任务(1)检查因子A对变量ア是否显著地有影响;(2)检查因子B对变量F是否显著地有影响;(3)检查因子A和因子B的交互作用对变量,是否显著地有影响。2.双因子方差分析首先建立样本数据的方差分析恒等式:SST=SSA+SSB+SSAB+SSE。式中:SST是总离差平方和;SSA是A因子处理间的离差平方和;SSB是B因子处理间的离差平方和;SSAB是AB交互作用处理间的离差平方和;SSE是组格内离差平方和。 167SSB=Z工{ほ,ー手「A因子各组处理样本平均数B因子各组处理样本平均数式中:r是A因子处理的种类;以上式中的各种样本平均数定义为yコ丄ママへ「リ」总体平均数ル%:-1:-1スノア一1之レ=V1.组格样本平均数‘"いエ"y.j.=-LyvC是B因子处理的种类;1是第び个组格总体所包含的样本观测值个数。将各种总离差平方和分别除以各自的自由度,可得到相应于各离差平方和来源的方差。即 168总方差SSTA因子处理间方差MSBB因子处理间方差ロSSB一nSABSL1B--————AB交互作用处理间方差けーリ(〜hMSESSE组格内方差分别针对前面给出的三个原假设可建立下列检验统计量经ユVSE遣ゴニ尸い)SSE/Eエへ-rc/'ゝ尸Iノ(1)针对H。1Fb=MSBMSESS3/(c—1)ーエ(ハ一/,,,「F(cT)SSE/エエヘ-rc'/33)(2)针对aaAfSE〃ニニSSEfン)〃《一rc,/バ丿肛£嘅T)(cf一口二T(c-l)(3)针对々s六、Excel在假设检验与方差分析中的应用假设检验AfST=r—yyn,-i 169对于参数检验,Excel提供了tー检验、Zー检验和F-检验分析工具。此外,也可以综合利用公式与相关函数计算出检验统计量和临界值。2.方差分析Excel提供了方差分析工具,利用该工具可方便地进行单因子方差分析和二因子方差分析(分为因子有交互作用或无交互作用两种)。 1706.2课后习题详解ー、单项选择题某种电子元件的使用者要求,ー批元件的废品率不能超过2%〇,否则拒收。1.使用者在决定是否接收而进行抽样检验时。提出的原假设是()。A.Ho:P>2%oB.H(>:P<2%«C.Ho:P=2%oD.其他【答案】B【解析】本题属于单侧检验问题,单侧检验分两种情况:ー种是我们所考察的数值越大越好,如灯泡的使用寿命、轮胎行驶的里程数,等等;另ー种是数值越小越好,如废品率、生产成本等。对本题而言,使用者更关注废品率的上限,因此应为右侧检验,其原假设为PW2%〇。对上述检验问题,标准正态检验统计量的取值区域分成拒绝域和接受域两部分。拒绝域位于接受域之()。A.左侧B,右侧C.两侧D.前三种可能性都存在【答案】B【解析】本题属于右侧检验问题。右侧检验又称为上限检验,其拒绝域位于接受域之右。在上述检验中,()05显著性水平对应的标准正态分布临界值是()。A.1.645B.±1.96C.-1645D.±1.645 171【答案】A【解析】右单侧检验的拒绝域在右侧,查表可知,().()5显著性水平下标准正态分布的检验统计量临界值为Za=1.645若算得检验统计量的样本值为150,电子元件的实际废品率是35%。,则会出现()。A.接受了正确的假设B.拒绝了错误的假设C,弃真错误D,取伪错误【答案】D【解析】005显著性水平下,由检验统计值L5<1.645,可知不能拒绝原假设,即认为该批元件的废品率不超过2%。。但实际废品率是3.5%。,假设本来不正确,却没有予以否定,犯了取伪错误。使用者偏重于担心出现取伪错误而造成的损失。那么他宁可把显著性水平定得()。A.大B.小C,大或小都可以D.先决条件不足,无法决定【答案】A【解析】当原假设ス)为真,我们却将其拒绝,犯这种错误的概率用a表示:当原假设“。为伪,我们却没有拒绝%,犯这种错误的概率用£表示。对于一定的样本量〃,如果减小a错误,就会增大犯ガ错误的机会:若减小タ错误,也会增大犯a错误的机会。使用者偏重于控制取伪错误ズ概率的大小,可通过增大a而达到减小月的目的。二、问答题某县要了解该县小学六年级学生语文理解程度是否达到及格水平(60分)。为此,从全体六年级学生中用简单随机放还抽样方法抽取了400人进行测试,得到平均成绩616分,标准差14.4分。要根据样本数据对总体参数的论断值(语文理解程度的期望值60分)作显著性检验,显著水平先后按a=0.05和a=()01考虑。请就上面的工作任务回答下列问题: 172(1)指出由样本数据观测到何种差异:(2)指出出现这种差异的两种可能的原因;①采用放还抽样方法;(3)针对这两种可能的原因提出相应的两种假设(原假设和备择假设),指出所提出的假设对应着单侧检验还是双侧检验,说明为什么要用单侧检验或者双侧检验;Hq:〃=60Hゝ:ルエ60所提出的假设对应着是双侧检验。(4)仿照式(67)构造检验统计量(如在那里说明过的:这个检验统计量服从t分布。不过,由于我们在这里所使用的是一个400人的足够大的样本,因而可以用标准正态分布7ーア一〃和作为r分布的近似);7_X-u61.6-60_ハ,S/J”14.4/^400(5)计算检验统计量的样本值;(6)根据上述样本值査表确定观测到的显著性水平;观察到的显著性水平0.0132(7)用观测到的显著性水平与检验所用的显著性水平标准比较(注意:如果是单侧检验,这个标准用口值,如果是双侧检验,这个标准用W2值),并说明,通过比较,你是否认为得到了足以反对“观测到的差异纯属机会变异”这ー论断(或是足以反对原假设)的足够的证据?为什么?当显著性水平为0.05时,z°w=l.%,拒绝原假设;当显著性水平为0.01时,へ次=2.575,不能拒绝原假设。所以选取不同的显著性水平影响了结论的判断,没有得到足以反对原假设的证据。(8)根据提出的显著性水平建立检验规则,然后用检验统计量的样本值与检验规则比较,重新回答(7)中的问题;(9)根据上面所做的工作。针对本题的研究任务给出结论性的表述。答:双侧检验;检验统计量的样本值2.22;观察到的显著性水平0.0132;当显著性水平为()。5时,拒绝原假设;当显著性水平为0.01时,z。0M=2675,不能拒绝原假设。是否a+ガ=1?(这里的a是犯弃真错误的概率,P 173是犯取伪错误的概率)请说明为什么是或为什么不是?答:不是。根据样本对总体进行推断有可能出现两种错误:第一类错误是指:原假设事实上正确,可是检验统计量的观测值却落入拒绝域,因而否定了本来正确的假设,这是弃真的错误,发生第一类错误的概率,在双侧检验时是两个尾部的拒绝域面积之和,在单侧检验时是单侧拒绝域的面积;第二类错误是指:原假设事实上不正确,而检验统计量的观测值却落入了不能拒绝域,因而没有否定本来不正确的原假设,这是取伪的错误。发生第二类错误的概率为内。在样本容量〃不变的条件下,犯两类错误的概率常常呈现反向的变化,a大则タ小,a小则ガ大,因为具有随机性,其和并不一定为1。要使a和タ都同时减小,除非增加样本的容量。3.据ー个汽车制造厂家称,某种新型小汽车耗用每加仑汽油至少能行驶25公里,一个消费者研究小组对此感兴趣并进行检验。检验时的前提条件是已知生产此种小汽车的单位燃料行驶里程技术性能指标服从正态分布,总体方差为4。试回答下列问题:(1)对于由16辆小汽车所组成的一个简单随机样本,取显著性水平为001,则检验中根据X来确定是否拒绝制造厂家的宣称时,其依据是什么(即检验规则是什么)?(2)按上述检验规则,当样本均值为每加仑23、24、255公里时,犯第一类错误的概率是多少?答:(1)进行左侧检验,提出假设:外〃小;H1:〃<25显著性水平为〇01时,Zooi=2-33,拒绝域为(7°「2.33]。(2)样本均值为23,24,25.5时,犯第一类错误的概率都是0.01三、计算题一台自动机床加工零件的直径x服从正态分布,加工要求为E(x)=5cm。现从一天的产品中抽取50个,分别测量直径后算得X=4.8cm,标准差0,6cm。试在显著性水平。05的要求下检验这天的产品直径平均值是否处在控制状态(用临界值规则)?解:(1)提出假设:スメ=5区:〃エ5(2)构造检验统计量并计算样本观测值,由于〃=50为大样本,故采用Z检验统计量。在原假设成立条件下:x—"4.8—5叵p.6,Z=y7=V50=-2.3570(3)确定临界值和拒绝域:Zoo25=1.96 174...拒绝域为(-x-1.96]U[1,96.+x)(4)做出检验决策:•.,0=2.3570〉Zx>25=1.96检验统计量的样本观测值落在拒绝域••・拒绝原假设H。,接受Hi假设,认为生产控制水平不正常。已知初婚年龄服从正态分布。根据9个人的调查结果,样本均值ヌ=23.5岁,样本标准差(以9-1作为分母计算)S=3岁。问是否可以认为该地区初婚年龄数学期望值已经超过20岁(a=005,用临界值规则)?解:(1)提出假设:昆:“420,兄:〃>20(2)构造检验统计量并计算样本观测值由于初婚年龄总体服从正态分布,总体标准差未知,属于小样本,所以用样本标准差代替总体标准差,相应检验统计量采用tー统计量。x-Uq23.5-20在原假设成立条件下:(3)确定临界值和拒绝域在0.05的显著水平下,查t-分布表得临界值も(h-D=&:(8)=L86,右侧检验的拒绝域是721.86。(4)做出检验决策:vr>r001(8)=1.86检验统计量的样本观测值落在拒绝域。.•・拒绝原假设み。,接受ス假设,即可以认为该地区初婚年龄数学期望值已经超过20岁。从某县小学六年级男学生中用简单随机抽样方式抽取400名,测量他们的体重,算得平均值为61.6公斤,标准差是14.4公斤。如果不知六年级男生体重随机变量服从何种分布。可否用上述样本均值猜测该随机变量的数学期望值为60公斤?按显著性水平。()5和0.01分别进行检验(用临界值规则)。解:样本量”=400,在大样本情况下,六年级男生体重随机变量近似服从正态分布。(1)a=0.05时,建立假设检验: 175①提出假设:Hq:4=60H、:"工60②构造检验统计量并计算样本观测值在月假设成立条件下:xー〃61.6-60下叵z=vn=V400=2,222③确定临界值和拒绝域Z0025=1.96拒绝域为(-8,T96]u[196,+00)④做出检验决策:VZ=2.222>Zoo25=1.96检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受Hi假设,认为该县六年级男生体重的数学期望不等于60公斤。(1)a=0.05时,建立假设检验:①提出假设:H0:=60H、:ルエ60②构造检验统计量并计算样本观测值在愿假设成立条件下:xー〃61.6-60広/14.42Z=V=V400=2,222③确定临界值和拒绝域Z().(x)5=2.575.•.拒绝域为(-=c-2.575]u[2.575,+X)④做出检验决策VZ=2.222 176某公司负责人发现开出去的发票有大量笔误,而且断定这些发票中,有笔误的发票占20%以上。随机抽取400张发票,检查后发现其中有笔误的占18%,这是否可以证明负责人的判断正确?(a=005,用临界值规则)解:建立假设:ス:ア40.2冃]:ア>0.2P=0.18,ねバoo,由于样本容量足够大,且ゆ和は1ー必皆大于5,故可用正态分布近似。吁:「01]一,ヤ0)0.18-0.202x11-02I400其检验统计量的值为:在0.05的显著水平下,右侧检验的临界值よ=105,而Z<4,故不能拒绝原假设H。,即不能证明负责人的判断正确。从某地区劳动者有限总体中用简单随机放回的方式抽取ー个4900人的样本,其中具有大学毕业文化程度的为600人。我们猜测,在该地区劳动者随机试验中任意一人具有大学毕业文化程度的概率是11%。要求检验上述猜测(a=005,用临界值规则)。解:(1)提出假设:Ho:夕=11%H:*11%(2)构造检验统计量并计算样本观测值在原假设成立条件下:丝=122样本比例ア="00%p-p0.122-0.11p(l-p)-fc.llx0.89Z=寸n=V4900=2.68(3)确定临界值和拒绝域厶皿=1.96拒绝域为(一8「L96]U396g)(4)做出检验决策VZ=2.68>Zoo25=1.96检验统计量的样本观测值落在拒绝域。••・拒绝原假设H。,接受Hi假设,即能够推翻所作的猜测。从某市已办理购房贷款的全体居民中用简单随机不放回方式抽取了342户,其中,月收入5000元以下的有137户,户均借款额74635万元,各户借款额之间的方差24999;月收入5(XX)元及以上的有205户,户借款额89756万元,各户借款额之间的方差28541。可见,在申请贷款的居民中,收入较高者,申请数额也较大。试问,收入水平不同的居民之间申请贷款水平的这种差别是ー种必然规律,还是纯属偶然?(ひ=0.05,用P-值规则和临界值规则)解:“5000元以下”无限总体的申请贷款额均值记作 177ル,“5000元及以上“无限总体的申请贷款额均值记作ル。把巧和“2分别看作两个无限总体的简单随机样本。提出假设:H。:内=ムH、:%・内7K一拓7.4635-8.9756-Z=I=・=,==-2.000届Sミ,24.99928.541ほ+マ1/^37-+^6T在原假设H。成立的条件下,计算检验统计量的样本观测值:①临界值规则由于丐和叱都相当大,上述检验统计量近似服从正态分布。所以,当a=095时,查标准正态分布表,得到双侧临界值分别是Z。组=±196。由于团=2.666>|Z°w|=1.96,故检验统计量的样本观测值落在拒绝域内,样本资料提供了显著的证据表明,高收入水平的居民申请贷款数额高于低收入水平的居民是ー种规律而并非偶然。②Pー值规则查标准正态分布表,标准正态分布曲线在Z=2.666右侧的面积为0.0036,这是观测到的显著水平,比规定的右尾显著水平标准0.025小得多。故拒绝原假设,说明高收入水平的居民申请贷款数额高于低收入水平的居民是ー种规律而并非偶然。用不放回简单随机抽样方法分别从甲、乙两地各抽取200名六年级学生进行数学测试,平均成绩分别为62分、67分,标准差分别为25分、20分,试以〇.05的显著水平检验两地六年级数学教学水平是否显著地有差异。解:(1)提出假设:H。:丛=%Hゝ:冉・内(2)构造检验统计量并计算样本观测值在“が三条件下:yi-yi67-62目巨+生Z二M〃】w:=V200200=2,209(3)确定临界值和拒绝域Zo.O25=l.96 178...拒绝域为(-8.-1.96]11396中》)(4)做出检验决策VZ=2.209>Zoo25=1.96检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受H,假设,即两地的教育水平有差异。从成年居民有限总体中简单随机不放回地抽取228人,经调查登记知其中男性100人,女性128人。就企业的促销活动(如折扣销售、抽奖销售、买几赠几等等)是否会激发本人购买欲望这ー问题请他(她)们发表意见。男性中有40%的人、女性中有43%的人回答说促销活动对自己影响不大或没有影响。试问,促销活动对不同性别的人购买欲望的影响是否有差别?(a=0.10,用临界值规则)解:(1)提出假设:Ho:P\-P1Hi:P\*Pユ(2)构造检验统计量并计算样本观测值在H。成立条件下:2ヱPlP:=043-04干"叫一熄542x058x(含+卷)_12Sx0.43-100x0,-l一心尸1=0一43,p2=0.4,Pf+%128+1004(»=1645(3)确定临界值和拒绝域.,.拒绝域为(-8「L645]Uk645,g)(4)做出检验决策 179...在0.1的显著水平下,团=0455 180地区和广吿方式观测序号(周)123456甲地K:街头标牌广告535266625158乙地区:公交车广告614655495456丙地区:徴报刊邮递广告504045554042解:表6-3三种广告宣传方式的销售量甲地区535266625158乙地区614655495456丙地区504045554042由题意,设三种广告宣传方式的周销售量均值分别是阳,中,円,建立假设检验:H(l:J11==(12=J13,Hl:(Il,)12,円不全等。利用EXCEL软件进行方差分析计算,方差分析表如表6-4所示。表6-4方差分析表差异源SS离差平方和Df自由度MS均方差FF统计量P-valueP值组间430.11112215.05566.3396660.010105组内508.83331533.92222总计938.944417①临界值规则:显著水平为a=0.05时,F检验的临界值产(2/5)=3.68。由于尸=6.34>3.68,拒绝原假设H。,所以认为各种广告宣传方式的效果存在显著地差异。②Pー值规则:由于p值为0.01,小于显著水平a=0.05,拒绝原假设H。,所以认为各种广告宣传方式的效果存在显著地差异。从本市高考考生中简单随机抽取50人,登记个人的考试成绩、性别、父母文化程度(按 181(500.女.AM498.男•A><540.男.A)(530.女・A)(S50•女,A)(400.女..4)(560.男.A)<460.男.A”510.男•A"520.女.A)(524.男・ん)(450.用.8)(490.女.8)(430.男.>0(520.男.8)(540.女.B)(410.男.BM390.用.B)(58O.女.B〃320.男.B)父母中较高者,文化程度记作:A一大专以上,B一高中,C-初中,D小学以下)。数据如下:(430.男.BM4。0.女.BM55O.女.BM37O.女.BM380.男.B)(470,男.8)(570.女.C)(320.女.0(350.女.C)<420.男.C)(450.男.C)(48。.女.CM53O.女.0(540.男.C)(390.男.C)(410.女.C)(310.女.C)(300.男.0(540.女.ロ)(560.女.D>(290.A.0X310.男.D)(300.男.D)(340.男.D)(490.男.D)(280.男.D)(310.女.D)(320.女.D)(4O5.女.D)(410.男•D)(1)试检验学生的性别是否显著地影响考试成绩(显著性水平005,用P-值规则和临界值规则):(2)试检验家长的文化程度是否显著地影响学生的考试成绩(显著性水平〇.05,用P-值规则和临界值规则)。解:⑴①提出假设:Ho:|il=J12Hl:gl*|12②计算离差平方和:表6-5考试成绩表性别i成绩j男510410430380490498430390470420540300280410540560524520450390300460450320340310女5(X)4504903505303102904054005204(X)580550570540310530540370320480410560320由题可知,m=2,ni=26,m=24,n=50,エむ=ゆハデ]=*47£%=49309802y:=5008425,=9939405组间变差:SSR=二ny.*-nyS”/11122g_,10725.2cnノ1847V2=26x(——)^24x(——r-50x(——/262450=9550383.76-9545828.18=4555.58 182=9939405-9550383.76=38902124组内变差:③构造检验统计量并计算样本观测值SSR(»»-1)4555.58(2ー1)SSE(〃-刑)=389021.24/(50-2)=0.5621④确定临界值和拒绝域查表可得Ro,(1,48)=4.048..・拒绝域为:[468,-功⑤做出检验决策临界值规则:VF=0.5621 183『!!竽.—2SSR=i-i-n组内变差—Zy;Xn»yi-SSE=』H'--i=9939405-9632609.568=306795.432③构造检验统计量并计算样本观测值SSR/(m-T)86781.388/(4-1)F=SSE,'("ーめ=306795.43200-4)=4.3372④确定临界值和拒绝域Fo.o5(3,46)=2.816...拒绝域为:[2.816,+8)⑤做出检验决策临界值规则:,.,F=4.3372>Fo.o5(3,46)=2.816检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受Hi假设,即父母文化程度对孩子的学习成绩有影响。Pー值规则:根据算得的检验统计量的样本值(F值)算出Pー值=0.008973。由于P-值=0.008973小于显著水平标准a=03,所以拒绝耳。,接受Hい即得到足以表明父母文化程度对孩子的学习成绩有影响的显著证据。某金属材料生产过程中,为提高其强度,需要进行热处理。热处理的温度和时间是影响该材料强度的两个主要因素。现取三个温度水平和四个时间水平,各个不同水平的每ー组合都进行了二次实验,测得该材料在各种热处理方式下的强度数据如表6-6所示。试分析温度、时间两个因素各自以及两个因素的交互作用对材料强度是否显著地有影响。(a=0.01,用P一值规则和临界值规则) 184时间BBi%物&溫度AAt5356697163645659A27168777869705859&7576727168665658表6-6某金属材料处理后的强度解:表6-7某金属材料处理后的强度□B1B2B3B4536963565671645971776958687870597572685676716658方差分析表如表6-8所示:表6-8方差分析表差异源SS离差平方和“自由度MS均方差FF统计量P-valueP-值温度A因素256.08332128.041768.288892.78E-07时间B因素714.79173238.2639127.07412.34E-09交互313.5833652.2638927.874072.24E-06内部22.5121.875总计1306.95823②临界值规则:显著水平为a=0.05时,R=68.28889>F0.8(2,12)=3.89,拒绝原假设H,“,即认为温度因素对材料强度有显著地影响。Fb=127.O741>Fo.«(3,12)=3.49,拒绝原假设H叫即认为时间因素对材料强度有显著地影响。Fab=27.87407>Fo.(>5(6,12)=3,拒绝原假设H0“即认为两个因素的交互作对材料强度有显著地影响。②Pー值规则:由方差分析表可知,温度因素、时间因素即交互作用的P- 185值均小于显著水平a=0.05,拒绝原假设,即可以认为温度、时间两个因素各自以及两个因素的交互作用对材料强度有显著地影响。
此文档下载收益归作者所有