曾五一《统计学导论》笔记和课后习题(含考研真题)详解

曾五一《统计学导论》笔记和课后习题(含考研真题)详解

ID:83022181

大小:1.14 MB

页数:394页

时间:2023-09-20

上传者:灯火阑珊2019
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第1页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第2页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第3页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第4页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第5页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第6页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第7页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第8页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第9页
曾五一《统计学导论》笔记和课后习题(含考研真题)详解_第10页
资源描述:

《曾五一《统计学导论》笔记和课后习题(含考研真题)详解》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

目录内容简介目录第一章绪论1.1复习笔记1.2课后习题详解1.3考研真题与典型习题详解第二章数据的收集、整理与显示2.1复习笔记2.2课后习题详解2.3考研真题与典型习题详解第ア章数据分布特征的描述3.1复习笔记3.2课后习题详解3.3考研真题与典型习题详解第四章概率基础4.1复习笔记42课后习题详解4.3考研真题与典型习题详解第五章抽样分布与参数估计5.1复习笔记5.2课后习题详解5.3考研真题与典型习题详解第六章假设检验与方差分析6.1复习笔记6.2课后习题详解6.3考研真题与典型习题详解第七章相关与回归分析7.1复习笔记

17.1课后习题详解7.2考研真题与典型习题详解

2第八章非参数检验8.1复习笔记8.2课后习题详解8.3考研真题与典型习题详解第九章时间序列分析9.1复习笔记9.2课后习题详解9.3考研真题与典型习题详解第十章对比分析与指数分析10.1复习笔记10.2课后习题详解10.3考研真题与典型习题详解第十一章统计决策11.1复习笔记11.2课后习题详解11.3考研真题与典型习题详解第十二章统计综合评价12.1复习笔记12.2课后习题详解12.3考研真题与典型习题详解

3第一章绪论1.I复习笔记ー、统计。统计的含义统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是人们认识客观世界的一种有力工具。统计研究对象的特点(1)数量性:统计研究对象的基本特点。(2)总体性:统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析,得出反映现象总体的数量特征。(3)变异性:统计研究同类现象总体的数量特征,其前提是总体各单位的特征表现存在着差异,而且这些差异事先不可预知。统计学与统计实践活动的关系统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。统计学与统计实践活动的关系是理论与实践的关系。统计数据是统计实践活动的成果,人们对统计数据的要求是:客观性、准确性和及时性。统计研究的基本环节统计研究全程包括四个基本环节:(1)统计设计:根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统ー的定义、标准;同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据:经过统计设计,形成方案后,就可以开始收集统计数据。收集统计数据的基本方式包括科学实验和统计调査。(3)整理与分析:原始的统计数据收集上来之后,必须经过整理、加工和分析才能真正发挥其作用。所用方法分为统计描述和统计推断两大类。描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进ー步计算出各种能反映总体数量特征的综合

4指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。(4)统计资料的积累、开发与应用:对于已经公布的统计资料需要加以积累,并结合相关的实质性学科的理论知识进行分析和利用。该过程必须将实质性学科的理论与统计方法相结合。相关实质件实验推断统计相关实験盘学科却论学科理论图1-1统计研究的全过程上述统计研究的全过程如图1-1所示:二、统计学的种类及其性质ロ统计学的产生与发展统计学发展过程中有重要影响的学派主要有:政治算术学派、国势学派、社会统计学派和数理统计学派。其中,最早使用“统计学”这ー术语的是国势学派。纵观统计学发展的历史,可以发现:统计学最初是从设置指标研究社会经济现象的数量开始的。从当前世界各国的状况来看,统计学已经成为研究社会经济现象和自然现象数量方面的有力工具,它既研究确定现象的数量方面,也研究随机现象的数量方面。理论统计学和应用统计学现代统计学可分为两大类:(1)理论统计学:是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据的方法,是具有理学性质的通用方法论科学。(2)应用统计学:是以各个不同领域的具体数量为研究对象,是有具体对象的方法论,具有边缘交叉学科和复合型学科的性质。3.统计学与有关学科的联系和区别(1)统计学与数学的联系和区别①联系:a.两者都研究数量规律,都要利用各种公式进行运算。b.现代统计学中运用了大量的数学理论与方法;数学中的概率论,为统计学提供了数量分

5析的理论基础。c.数学分析的方法包括统计的数量分析。统计学中的理论统计学以抽象的数量为研究对象,其大部分内容可看作是数学的一个分支。②区别:a.从研究对象看,数学撇开具体的对象,以最一般的形式研究数量的联系和空间形式;而统计学特别是应用统计学则总是与客观的对象联系在ー起的。b.从研究方法看,数学的研究方法主要是逻辑推理和演绎论证的方法;而统计的方法,本质上是归纳的方法,根据实验或调查观察到大量情况,来归纳判断总体的情况。(2)统计学与其他学科的联系统计学为经济学和管理学等实质性学科提供数量分析工具,经济学和管理学等实质性学科对统计学在本领域的应用(包括统计指标的设定、统计方法的选择和统计分析)起理论指导作用。三、统计学的基本概念总体与总体单位(1)统计总体:由客观存在的、具有某种共同性质的许多个别单位所构成的整体,应具备同质性和大量性。根据总体包括单位数量不同,总体可分为有限总体与无限总体。(2)总体单位(简称单位):是组成总体的个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是ー种现象或活动过程等非实物单位。注意:总体和单位的概念是相对的,随着研究目的不同、总体范围不同而变化。同一个研究对象,在ー种情况下为总体,但在另ー种情况下又可能变成单位。目样本样本是由总体抽出的部分单位构成的集合体,由一定数量的单位构成,为总体的代表。标志的定义及分类(1)定义标志反映了总体各单位的属性或特征。(2)分类①根据所反映单位的特征:品质标志和数量标志。品质标志表明单位属性方面的特征,只能用文字、语言来描述来表现。数量标志表明单位数量方面的特征,可以用数值来表现。②根据其在各单位的表现:变异标志和不变标志。不变标志是指ー个总体中各单位有关标志的具体表现都相同。变异标志是指在ー个总体中

6,标志在各单位的具体表现有可能不同。统计指标与指标体系(1)统计指标①定义统计指标是通过对标志进行汇总计算而得到的反映总体数量特征的概念和数值,它是统计研究对象的具体化。②分类根据其所反映的数量特点:数量指标和质量指标。数量指标是反映现象总规模、总水平的统计指标,也称为总量指标,用绝对数来表示。质量指标是反映现象相对水平和工作质量的统计指标,是总量指标的派生指标,用相对数或平均数来表示。③统计指标与标志的联系标志反映总体单位的属性和特征,而指标则反映总体的数量特征。标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算オ能得到相应的指标〇由于总体和单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。(2)统计指标体系统计指标体系是由一系列相互联系的统计指标组成的有机整体,用以反映所研究现象各方面相互依存、相互制约的关系。统计数据(1)变量与变量值变量是说明现象某ー数量特征的概念,变量的具体取值是变量值。统计数据就是统计变量的具体表现。①根据变量值是否连续出现:连续型变量和离散型变量。连续型变量是指变量的取值在数轴上连续不断,无法ーー列举,即在ー个区间内可以取任意实数值。离散型变量是指变量的数值只能用计数的方法取得,其取值是整数值,可以ー一列举。②根据变量的取值是否确定:确定性变量和随机变量。确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。随机变量是受许多微小的不确定因素(又称随机因素)影响的变量,变量取值无法事先确定。(2)数据的计量尺度根据对研究对象计量的不同精确程度,分为四个层次:

7①定类尺度:最粗略、计量层次最低的计量尺度,是按照客观现象的某种属性对其进行分类。所使用的数值只是作为各种分类的代码,并不反映各类的优劣、量的大小或顺序。②定序尺度:是对客观现象各类之间的等级差或顺序差的ー种测度。该尺度不仅可将研究对象分成不同的类别,而且还可以反映各类的优劣、量的大小或顺序。③定距尺度:是对现象类别或次序之间间距的测度。该尺度不但可以用数表示现象各类别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差异。④定比尺度:是在定距尺度的基础上,确定相应的比较基数,然后将两种相关的数加以对比而形成相对数(或平均数),用于反映现象的结构、比重、速度、密度等数量关系。(3)数据的类型根据对客观现象观察的角度:横截面数据和时间序列数据。横截面数据(又称静态数据)是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据(又称动态数据)是指在不同时间对同一总体的数量表现进行观察而获得的数据。(4)数据的表现形式①绝对数:一般用于表现现象的规模和水平,其计量单位一般为实物单位或价值单位,有时也采用复合单位。②相对数:由两个互相联系的数值对比求得。常用相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。③平均数:反映现象总体的一般水平或分布的集中趋势。

81.2课后习题详解ー、判断题统计学是数学的ー个分支。()【答案】错【解析】统计学和数学都是研究数量关系的,两者虽然关系非常密切,但两个学科有不同的性质特点。数学撇开具体的对象,以最一般的形式研究数量的联系和空间形式;而统计学的数据则总是与客观的对象联系在ー起。特别是统计学中的应用统计学与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论。统计学是一门独立的社会科学。()【答案】错【解析】统计学是跨社会科学领域和自然科学领域的多学科性的科学。统计学是一门实质性科学。()【答案】错【解析】实质性科学研究该领域现象的本质关系和变化规律;而统计学则是为研究认识这些关系和规律提供合适的方法,特别是数量分析的方法。统计学是ー门方法论科学。()【答案】对【解析】统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。描述统计是用文字和图表对客观世界进行描述。()【答案】错【解析】描述统计是对采集的数据进行登记、审核、整理、归类,在此基础上进ー步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用信息,所以描述统计不仅仅使用文字和图表来描述,更重要的是要利用有关统计指标反映客观事物的数量特征。对于有限总体不必应用推断统计方法。()

9【答案】错【解析】一些有限总体,由于各种原因(如成本太高),并不一定都能采用全面调查的方法。例如,某ー批电视机是有限总体,要检验其显像管的寿命,不可能每一台都去进行观察和实验,只能应用抽样调査方法。经济社会统计问题都属于有限总体的问题。()【答案】错【解析】不少社会经济的统计问题属于无限总体。例如要研究消费者的消费倾向,消费者不仅包括现在的消费者而且还包括未来的消费者,因而实际上是ー个无限总体。理论统计学与应用统计学是两类性质不同的统计学。()【答案】对【解析】统计学沿着两个不同方向发展,形成了理论统计学和应用统计学,理论统计具有通用方法论的性质,而应用统计学则与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论。它们之间的学科性质也有所差异。二、单项选择题社会经济统计学的研究对象是()。A,社会经济现象的数量方面B.统计工作C.社会经济的内在规律D.统计方法【答案】A【解析】社会经济统计学的研究对象是社会经济现象总体的数量特征和数量关系,通过这些数量方面的研究反映社会经济现象发展变化的规律性。考察全国的工业企业的情况时,以下标志中属于不变标志的有()。A,产业分类B.职工人数C.劳动生产率D.所有制【答案】A【解析】不变标志是指在ー个统计总体中各总体单位表现相同的标志。题中全国

10的工业企业总体中,各工业企业的产业分类均属于エ业,故属于不变标志。要考察全国居民的人均住房面积,其统计总体是()。A,全国所有居民户B,全国的住宅C.各省市自治区D.某一居民户【答案】A【解析】统计总体是指由客观存在的某些性质上相同的许多个体所组成的整体;总体单位是指构成统计总体的各个个体。题中,统计总体是全国所有居民户,总体单位是全国每一个居民户。最早使用统计学这一学术用语的是()。A.政治算术学派B.国势学派C.社会统计学派D,数理统计学派【答案】B【解析】最早使用“统计学’‘这ー术语的是德国的阿亨瓦尔(G.Achenwall,1719-1772)»他认为统计学是关于国家显著事项的学问,主要通过对国家组织、人口、军队、领土、居民职业以及资源财产等事项的记述对国情国力进行研究。后人把从事这方面研究的德国学者称为“国势学派'三、分析问答题试分析以下几种统计数据所采用的计量尺度属于何种计量尺度。人口数民族信教人数进出口总额经济增长率教育程度答:根据对研究现象计量的精确程度不同,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。可以根据它们的数学特征和具体性质来对它们进行区分:定类尺度的数学特征是』''或"工",所以只可用来分类,民族可以区分为汉、藏、回等,但没有顺序和优劣之分,所以是定类尺度数据。定序尺度的数学特征是“>''或“ぐ',所以它不但可以分类,还可以反映各类的优劣和顺序,教育程度可划分为大学、中学和小学,属于定序尺度数据;定距尺度的主要数学特征是“+”或“-

11",它不但可以排序,还可以用确切的数值反映现象在两方面的差异,人口数、信教人数、进出口总额都是定距尺度数据;定比尺度的主要数学特征是“X”或“+",它通常都是相对数或平均数,所以经济增长率是定比尺度数据。请举ー个实例说明品质标志、数量标志、质量指标、数量指标之间的区别与联系。答:例如考察全国人口的情况,全国所有的人为统计总体,而每个人就是总体单位,每个人都有许多属性和特征,比如民族、性别、文化程度、年龄、身高、体重等,这些就是标志,标志可以分为品质标志和数量标志,性别、民族和文化程度都是品质标志,年龄、身高、体重等则是数量标志;而指标是说明统计总体数量特征的,用以说明全国人口的规模如人口总数等指标就是数量指标,而用以说明全国人口某一方面相对水平的相对量指标和平均量指标如死亡率、出生率等指标就是质量指标,质量指标通常是数量指标的派生指标。请举ー实例说明统计总体、样本、单位的含义,以及它们三者之间有什么联系。答:总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体,简称总体;构成总体的个体称为总体单位;样本是从总体中抽取的一部分元素的集合,是总体的一部分单位。例如,考察全国居民人均住房情况,全国所有居民构成统计总体,每ー户居民是总体单位,抽查其中5000户,这被调查的5000户居民构成样本。

121.3考研真题与典型习题详解ー、选择题以下关于数据类型的说法错误的是()。[华东师范大学2013研]A.温度属于定距类型的数据B.考试成绩(百分制)属于定比类型的数据C.性别属于定类类型的数据D.评级(如:优、良、中、差)属于定序类型的数据【答案】B【解析】定距型数据通常指诸如身高、体重、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示;定类型数据是指没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据。定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某ー个数值,而定比尺度中,“0’‘表示“没有‘‘或"无‘’。为了研究北京市财政支付能力,从北京统计年鉴搜集到历年北京市财政支出额数据,则该数据为()。[首都经济贸易大学2013研]A,时间序列数据B.截面数据C.观察数据D.实验数据【答案】A【解析】时间序列数据用于描述现象随时间发展变化的特征。下列变量属于数值型变量的是()。[东北财经大学2013研]A.定类变量B,定序变量C.定距变量D.定比变量E.定性变量【答案】CD【解析】CD两项,定距变量和定比变量均是区别同一类别个案中等级次序及其距离的变量。定比变量除了具有定距变量加与减的特性外,还具有乘与除的数学特质,二者均属于数值型变量。AB两项,定类变量和定序变量属于定性变量,表现为某事物的属性特征。

13指出下面的数据哪ー个属于定序数据()。[江苏大学2012研]A,上班的出行方式:自驾车,乘坐公共交通工具,骑自行车B.5个人的年龄(岁):21,26,35,22,28C,学生的考试成绩:优秀,良好,中,及格,不及格D,各季度的汽车产量(万辆):25,27,30,26【答案】C【解析】按照所采用的计量尺度不同,可以将统计数据分为以下四种类型:①定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。②定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。③定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。④定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。A项属于定类数据,B项属于定距尺度,C项属于定序尺度,D项属于定比尺度。以下哪ー种情形涉及定性数据的收集?()[中山大学2012研]A.质量控制工程师测量电灯灯泡的寿命B.社会学家通过抽样调查来估计广州市市民的平均年收入C.运动器材厂家在区分各大俱乐部棒球选手是左撇子还是右撇子时作的调查D.婚礼策划公司通过抽样调查来估计上海市市民举办婚礼的平均开销【答案】C【解析】分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。用部分数据去估计总体数据的理论和方法,属于()。[首都经济贸易大学2011研]A.描述统计B.复杂统计C.推断统计D.简单统计【答案】c【解析】描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。不便于确定中位数、众数和分位数的数据类型是()。[中南财经政法大学2002研]A,定类尺度B,定序尺度

14C.定比尺度D.定距尺度【答案】A【解析】定类尺度也称类别尺度或名义尺度,是将调查对象分类,标以各种名称,并确定其类别的方法。它实质上是ー种分类体系;定序尺度也称等级尺度或顺序尺度,是按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及次序的ー种尺度;定距尺度也称等距尺度或区间尺度,是ー种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法;定比尺度也称比例尺度或等比尺度,是ー种除有上述三种尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。从四者的定义中发现定类尺度是不便于确定中位数、众数和分位数的。用来描述样本特征的概括性数字度量称为()。A.参数B,统计量C.变量D,变量值【答案】B【解析】统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于样本是随机的,因此统计量是样本的函数。抽样的目的就是用样本统计量去估计总体参数。二、多选题下列变量中是连续变量的有()。[首都经贸2007研]A,产品产值B.商品销售额C.产品总成本D,エ资总额E.基本单位数量【答案】ABCD【解析】离散型变量是只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以ーー列举。连续型变量是可以在ー个或多个区间中取任何值的变量,它的取值是连续不断的,不能ーー列举。E项是离散型变量。2.统计总体的形成,从客观条件看,主要是()。[首都经贸2006研]A.同质性

15B.目的性C.客观性D.差异性【答案】ACD【解析】统计总体形成的三个条件是:①客观性,总体和总体单位必须是客观存在的,可以观察和计量的;②同质性,组成总体的所有个体必须是在某些性质上是相同的;③差异性,构成总体的各单位除了同质性一面还必须有差异性的一面,否则就不需要统计研究了。三、简答题简述统计的基本程序和基本内容。[东北财经大学2014研]答:统计是指对某ー现象有关的数据的搜集、整理、计算和分析等的活动。(1)统计的基本程序①统计设计:是根据统计研究的目的和研究对象的特点,明确统计指标和指标体系,以及应对的分组方法,并以分析方法指导实际的统计活动。②收集资料:是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。③整理资料:是将收集到的原始资料进行反复核对和认真检査,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。④分析资料:是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,做出科学合理的解释。(2)统计的基本内容①统计工作:指收集、整理和分析客观事物总体数量方面资料的工作过程,是统计的基础。②统计资料:统计工作所取得的各项数字资料及有关文字资料。③统计科学:研究如何搜集、整理和分析统计资料的理论与方法。你是如何认识统计学与其它学科的关系的(如统计学与经济学、统计学与会计学、统计学与数学)?[西南财大2003研复试]答:统计学是研究客观现象数量特征和数量关系的,它和数学的关系十分密切,不论统计指标的设计与计算,统计分布的描述,统计估计与检验等都离不开数学方法的应用。概率论的引入为建立现代化理论统计学的理论框架奠定了基础。随着科学技术的进步和统计方法的改善,数学的应用必将更加广泛。但是统计学和数学仍然有性质上的区别。数学研究

16抽象的数量关系和空间形式,阐明适合所有领域的运算规则,统计学则是研究现实存在的数量关系,表明所研究领域客观现象的数量规律的具体表现。从研究方法看,数学的研究主要是逻辑推理和演绎论证的方法,从严格的定义、假设的命题和给定的条件出发去推证有关的结论。而统计学则是应用归纳推断的方法,根据调查或实验观察到大量现象的个体情况,来归纳判断出现象总体的情况。统计数据是反映客观事实的,要认识问题、解决问题,就必须抓住客观事物的内在联系,不能把统计问题简单归结为数学问题。举例说明离散型变量和连续型变量。答:(1)离散型变量是指其数值只能用自然数或整数单位计算的变量。如,企业个数、职工人数、设备台数等。(2)连续型变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续型变量。

17第二章数据的收集、整理与显示2.I复习笔记ー、统计数据的收集统计数据的收集方法(1)概念统计数据收集是根据统计研究预定的目的和任务,运用相应的科学的调查方法与手段,有计划、有组织地收集反映客观现实的统计资料的过程。(2)统计数据收集的方式①直接向调查对象收集反映调查单位的统计数据(或称原始资料);②收集已经加工、整理过的、说明总体现象的数据(一般称为二手资料)。(3)统计数据的分类按其性质不同划分为调查数据和试验数据。(4)统计数据收集的方法①直接观察法:由调查人员到现场直接对调查对象进行观察点数和计量。②报告法(通讯法):一般是由统计工作机构将调查表格分发或电传给被调查者,被调查者则根据填报的要求将填好的调查表格寄回。③采访法:是根据被调查者的答复来收集统计资料,又可分为ロ头询问法和被调查者自填法。口头询问法是由调查人员对被调查者逐一采访,当面填答;被调查者自填法,即调查人员把调查表交给被调査者,由被调查者按实际情况填写,而后交调查人员审核收回。④登记法:是由有关的组织机构发出通告,规定当事人在某事发生后到该机构进行登记,填写所需登记的材料。⑤其他方法:计算机、网络、光电技术、卫星遥感、地理信息系统等高新技术已经或正在被广泛地引入统计数据收集的领域中(例如,上述各种调查方法都可以与网络相结合,形成网络调查)。统计调查方式

18(1)定义调查方式是指组织收集调查数据的形式与方法。(2)分类①按调査的范围划分:全面调查和非全面调查。全面调查是对调查对象的所有单位ーー进行调査;非全面调査是对调查对象其中的一部分单位进行调査,以取得调查对象的一部分资料,用来推断总体或反映总体的基本情况。②按时间标志划分:连续性(经常性)调查和不连续性(一次性)调查。连续性(经常性)调查是指随着研究现象的变化,连续不断地进行调查登记;不连续性(一次性)调查是指间隔一段较长的时间对事物的变化进行一次性调查。(3)常用统计调查方式①普查普查是专门组织的ー种全面调査,它主要是用以收集某些不能或不宜用定期报表收集的统计资料。对国情国力的调查一般采用普查。a.主要特点第一,属于非经常性的调查,一般间隔较长的时间オ进行一次;第二,属于全面调査,它比任何ー种调查形式更能掌握大量、详细、全面的统计资料。b.组织形式第一,经过组织的普查机构,配备ー定数量的普查人员,对调查单位直接进行登记(例如我国人口普査);第二,利用调查单位的原始记录和核算资料,结合清库盘点,由调查单位自行填报调查表格(例如我国物资库存普查)。②抽样调查抽样调查是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调査对象总体特征作出具有一定可靠程度的推算,是ー种非全面调查。抽样调查可以分为概率抽样和非概率抽样:概率抽样是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算调查对象的总体特征;非概率抽样是随便地或有意识地抽取单位进行调査,从而认识研究对象的变动情况或发展规律。一般不以样本数据推断总体数量特征,其调查误差也难以事先计算。a.概率抽样的特点第一,样本单位按随机原则抽取,排除了主观因素对选样的影响;第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计;第三,抽样误差可以事先计算并加以控制。b.抽样调查的适用场合第一,针对ー些不可能或不必要进行全面调查的社会现象;

19第二,对普查资料进行必要的修正。③重点调查重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查。重点单位的选择主要着眼于它在所研究现象的标志总量中所占的比重。重点调查的适用场合:当调查任务只要求掌握基本情况,而部分单位又能比较集中地反映研究的项目,采用重点调查比较适宜。但重点调查无法对现象总体的数量特征作出准确的推算,也无法测算调查误差。④统计报表制度统计报表制度是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式、统ー的指标项目、统ー的报送时间和报送程序,自下而上地逐级地定期提供统计资料的ー种调查方式。a.主要特点第一,报表资料的来源建立在各个基层单位原始记录的基础上,基层单位可利用其资料对生产、经营活动进行监督管理:第二,由于统计报表是逐级上报和汇总的,各级领导部门能获得管辖范围内的报表资料,了解本地区、本部门的经济和社会发展情况;第三,由于统计报表是属于经常性(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。b.局限性随着社会主义市场经济的发展,统计调查单位变动频繁,再加上决策主体和利益主体的多层次化,各方面对统计数字真实性的干扰明显增加,从而影响统计数据的准确性。统计调查体系(1)统计调查体系是ー个国家开展统计调查方法和制度的总称。(2)我国新的统计调査体系是以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调査、科学推算和部分全面报表综合运用的调查体系。(3)我国的统计调查体系还采用科学的推算方法,即统计推算。①定义;统计推算是在不可能或不必直接通过调查取得资料的情况下,根据已掌握的资料,运用各种统计方法进行科学的估计推算,以间接方式取得所需的资料。②分类:静态推算(对同一时期内的未知项所作的推算)和动态推算(针对未来的时期所作的推算)。③内容;从ー个现象推算另ー现象、从局部推算总体、从现在推算未来。④方法:比例推算法、因素估算法、平衡估算法、线性插值法、拉格朗日插值法及各种动

20态数列的预测方法等。统计调査的方案设计(1)明确调査目的。明确统计调查要解决什么问题,只有明确调查目的,数据的搜集エ作オ能有序地进行。(2)确定调査对象和调査单位。①调查对象:是指需要调查的现象总体。②调查单位:是指所要调查的具体单位,它是进行调查登记的标志的承担者。③报告单位:亦称填报单位,是负责向上报告调查内容、提交统计资料的单位。④调查单位与报告单位的区别:报告单位一般是在行政上、经济上具有一定独立性的单位〇而调查单位可以是个人、企事业单位,也可以是物。根据不同的调查目的,调查单位与报告单位,有时是一致的,有时不一致。注意:对于抽样调查,确定调查对象就是明确目标总体,这是建立抽样框的前提。抽样调査单位是构成抽样框的基本要素。进行抽样调查方案设计,还应包括确定样本量的大小、样本的抽取方式和抽样的组织形式。(3)设计调査项目。调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标志和数量标志所构成。(4)设计调查表格和问卷。调查表一般包括ー览表和单ー表两种形式;问卷调查是ー种特殊的调查形式,常用于民意测验或市场调查。(5)确定调查时间。包括调查时间和调查期限两种含义:调查时间是指调查资料所属的时间,若所调查的是时期现象,就要明确规定调查资料所反映的起止日期,若调查时点现象,则调查时间为规定的统ー标准时点:调查期限是进行调查工作的时限,包括收集资料和报送资料的工作所需的时间,应尽可能缩短。(6)组织实施调査计划。调查组织工作包括确定调查机构,组织和培训调査人员,落实调査经费的来源和开支办法,确定调查数据的处理方法、报送方式和公布调查结果的时间。(7)调查报告的撰写。二手资料的主要来源渠道(1)统计年鉴。主要有《中国统计年鉴》、《国际统计年鉴》、地方统计年鉴和《中国统计摘要》等。(2)有关期刊。主要有《中国经济景气月报》、《中国经济数据分析》和《经济预测分析》等。

21(3)有关网站。主要有中国统计信息网、国研网、中国经济信息网和中国经济时报网等。二、统计数据的整理数据整理概述(1)两种含义:第一种是指对统计调查所收集到的各种数据进行分类和汇总,称为汇总性整理;第二种是对现成的综合统计资料进行整理。(本节所指为第一种含义)(2)数据整理的内容统计汇总方案的设计包括两方面:①确定总体的处理方法。主要是如何对所要研究的总体进行统计分组。②确定汇总哪些统计指标。汇总方案确定之后,可根据汇总方案,进行数据处理,计算各项指标数值。并利用统计表或统计图的形式,描述整理的结果。(3)数据整理的程序①统计资料的审核。检查原始数据的完整性与准确性。②资料的分组和汇总。对全部调查数据资料,按其性质和特点分组归类,上机进行数据处理,综合汇总形成各项统计指标。③编制统计表或绘制统计图。④统计数据资料的积累、保管和公布。统计分组(1)统计分组的概念根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。统计分组的对象是总体,分组标志可以是品质标志,也可以是数量标志。(2)统计分组的种类①按分组标志的多少划分:简单分组和复合分组;简单分组就是对研究现象按ー个标志进行分组,它只能从某ー方面说明和反映事物的分布状况和内部结构;复合分组是用两个或两个以上标志分组,即先按ー个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组。②按分组标志的性质划分:品质分组(或称属性分组)和数量分组(或称变量分组)。品质分组就是按品质(或属性)标志进行分组,适用于以定类尺度(列名尺度)或定序尺度(顺序尺度)计量的数据;数量分组就是按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。(3)统计分组的原则

22①穷尽原则:指总体中的每一个单位都应有组可归,或者说给出的各分组足以容纳总体所有的单位。②互斥原则:指在特定的分组标志下,总体中的任何ー个单位只能归属于某ー组,而不能同时归属于几个组。(4)品质分组的方法有些品质分组比较简单,分组标志ー经确定,组的名称和组数也随之确定。有些品质分组还取决于统计分析对分组层次的不同要求,对于ー些类别繁多的分组又称为分类。(5)数量分组的方法按数量标志分组,应注意两个问题:首先,分组时各组数量界限的确定必须能反映事物质的差别;其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。①单项式分组与组距式分组单项式分组;是指用ー个变量值作为ー组,形成单项式变量数列。一般适用于变动范围不大的离散型变量。组距式分组;是将变量依次划分为几段区间,一段区间表现为从“……到……”距离,把ー段区间内的所有变量值归为ー组,形成组距式变量数列。一般适用于连续型变量或者变动范围较大的离散型变量。②间断型组距式分组和连续型组距式分组在组距式分组中,每ー组变量值的最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。凡是组限不相连的,称为间断型组距式分组;凡是组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限,称为连续型组距式分组。连续型变量,只能采用连续组距式分组。注意;遵循“上限不在内”原则,即凡是总体某ー个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。③等距分组与异距分组等距分组;是指标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。适用于标志值变动比较均匀的情况。优点是便于计算,便于绘制统计图。异距分组:是指各组的组距不相等。适用于标志值分布很不均匀的场合、标志值相等的量具有不同意义的场合、标志值按ー定比例发展变化的场合等。④组距式分组相关指标的计算a.连续型组距式分组的组距=本组上限一本组下限间断型组距式分组的组距=本组上限一本组下限+1b.组数:组数的多少与组距的大小有直接关系。组距大,组数就少;组距小,组数就多。

23m=l+3.31ogAr美国学者斯特杰斯提出确定组数和组距的ー种经验公式,即斯特杰斯经验公式:d_R_J”nl+3.31ogy式中,n为组数,N为总体单位数,d为组距,R为全距,即最大变量值冷ス与最小变量值む之差。组中值一下限值+上限值C.组中值:上下限之间的中点数值称为组中值,组中值的计算公式为:在计算平均指标或进行其他统计分析时,常以组中值来代表各组标志值的平均水平。当各组标志值均匀分布时,组中值代表各组标志值的水平其代表性就高。注意:当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型变量自身的特点。d.开口组的组距与组中值:在编制组距式变量数列时,使用“XX以上,,或“XX以下,,这样不确定组距的组,称为开口组。开口组的组距是以相邻组的组距为本组的组距。频数分布(1)频数分布的基本概念在统计分组的基础上,可以将总体所有的单位按某ー标志进行归类排列,并计算其相应出现的次数,所得的分布称为频数分布(或次数分布)。通过对零乱的、分散的原始资料进行有次序的整理,形成一系列反映总体各组之间单位分布状况的数列,即分布数列。①分布数列的分类:品质分布数列(亦称品质数列)和变量分布数列(亦称变量数列)。品质数列是按品质标志分组所形成的数列;变量数列是按数量标志分组所形成的数列。②分布数列二要素a.总体按某标志所分的组;b.各组所出现的单位数,即频数(亦称次数)。注意:对于变量数列,总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,一般用x表示:频数(次)用/表示。③频率:将各标志出现的频数与总体单位总和相除可以得到频率,其性质包括:a.任何频率都是介于0和1之间的一个分数;

24b.各组频率之和等于1。④频数密度与频率密度为消除异距分组所造成的影响须计算频数密度和频率密度,其计算公式为:频数密度=频数/组距频率密度=频率/组距各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。累计频数与累计频率(1)向上累计频数(或频率)分布:表明某组上限以下的各组单位数之和占总体单位数的比重。其方法是先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。(2)向下累计频数(或频率)分布:表明某组下限以上的各组单位数之和占总体单位数的比重。其方法是先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。三、统计数据的显示。统计表(1)统计表的定义和结构①定义统计表是指分析表和容纳各种统计资料的表格,它可以有条理地显示统计资料,直观地反映统计分布特征,是统计分析的ー种重要工具。②结构a.从表式上看,包括:总标题、横行标题、纵栏标题和指标数值;总标题:是统计表的名称,它扼要地说明该表的基本内容,并指明时间和范围横行标题:是横行的名称,一般放在表格的左方纵栏标题:是纵栏的名称,一般放在表格的上方指标数值列:用来说明总体及其组成部分的数量特征,位于横行和纵栏的交叉处,是统计表格的核心部分b.从内容上看,包括:统计表由主词栏和宾词栏。主词栏:是统计表所要说明的总体及其组成部分宾词栏:是统计表用来说明总体数量特征的各个统计指标此外,统计表还有补充资料、注解、资料来源、填表单位和填表人等。(2)统计表的分类

25①按主词的结构划分:a.简单表:主词未经任何分组的统计表称为简单表;b.简单分组表:主词只按ー个标志进行分组形成的统计表,也称简单分组表;c.复合表:主词按两个或两个以上标志进行分组的统计表,也称复合分组表。②按宾词设计划分:a.宾词简单排列:宾词不进行任何分组,按一定顺序排列在统计表上;b.宾词分组平行排列:宾词栏中各分组标志彼此分开,平行排列;c.宾词分组层叠排列:统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在ー起。③主词分组与宾词分组的区别:主词分组的结果使总体分成许多组成部分,它们需要用统计指标(宾词)来描述,具有独立的意义;宾词分组的结果并不增加统计总体的各组成部分,仅仅是比较详细地描述总体已有的各个组成部分,从属于主词的要求。(3)统计表的设计总体要求是:简练、明确、实用、美观,便于比较。注意事项如下:①线条的绘制。统计报表的上下端以粗线绘制,表内纵横线以细线绘制。表格的左右两端一般不划线,采用“开口式’‘。②合计栏的设置。统计表各纵列若需要合计时,一般应将合计列在最后一行,各横行若需要合计时,可将合计列在最前ー栏或最后ー栏。③标题设计。统计表的总标题,横行、纵栏标题应简明扼要,统计资料的内容、资料所属的空间和时间范围应以简练而又准确的文字表述。④指标数值。表中数字应该填写整齐,对准位数。当数字小可略而不计时,可写上“0”;当缺某项数字资料时,可用符号“…”表示;不应有数字时用符号“一”表示。⑤计量单位。统计表必须注明数字资料的计量单位。⑥注解或资料来源。必要时,在统计表下应加注解或说明,以便查考。2.统计图(1)直方图直方图是用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方),若没有比率,直方图只保留左侧的次数。(2)折线图折线图是以线段的起伏表示其数量分布的特征。绘图时,可以在直方图的基础上,用折线

26将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成。(3)曲线图当变量数列的组数无限多时,折线便表现为一条平滑曲线。曲线图的绘制方法与折线图基本相同,只是在连接各组次数坐标点时应当用平滑曲线。(4)累计曲线图①累计曲线图的绘制累计曲线图包括向上累计频数(频率)分布图和向下累计频数(频率)图。在直角坐标系上将各组组距的上限与其相应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即向上累计曲线;在直角坐标系上将各组组距下限与其相应累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即向下累计曲线。向上累计曲线呈上升状,向下累计曲线呈下降状。组的次数(或频率)越少,曲线显得越平缓;组的次数(或频率)越多,曲线显得越陡峭。②洛伦茨曲线图美国的洛伦茨博士把累计频数(或频率)分布曲线运用于研究社会财富、土地和エ资收入的分配是否公平。这种累计曲线又称洛伦茨曲线图。其绘制方法如下:a.将分配对象和接受分配者的数量化成结构相对数并进行向上累计;b.纵轴和横轴均为百分比尺度,纵轴自下而上,用以测定分配的对象(如一国的财富、土地或收入等的分配状况),横轴由左向右用以测定接受分配者(如一个地区人口);c.根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点并使之平滑化,所得曲线即所要求的洛伦茨曲线。

27100Hホ伦茂囲蟆")图2-1如图2・1所示,横轴是累积的人口百分比,纵轴是累积的收入或财富百分比。用实际收入分配曲基尼系数=ーエ线与绝对平等线所包围的面积对比总面积,计算基尼系数,计算公式如下:式中:A表示实际收入L曲线与绝对平均线(对角线)之间的面积;B表示实际收入L曲线与绝对不平均线之间的面积。基尼系数值越小,即实际收入分配曲线越靠近绝对平等线,则收入分配越平等;反之,基尼系数值越大。频(次)数分布图的类型(1)钟型分布钟型分布的特征是“两头小,中问大’’,即中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口古钟。(2)U型分布与钟型分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,形成“两头大,中间小”的U型分布。(3)J型分布J型分布有两种类型:ー种是次数随着变量的增大而增多;另ー种呈反J型分布,即次数随着变量增大而减少。四、Excel在统计整理与统计图表中的应用编制分布数列编制分布数列的两种方法:

28①使用相关的函数(如Countif函数、Dcount数据库函数或Frequency函数)。②应用[直方图]分析工具。注意:[直方图]分析工具与Frequency函数在编制分布数列时,并不符合统计分组的“上限不在内”原则,在实际应用时必须进行调整。绘制统计图Excel可以绘制出各种各样的统计图形,如直方图、折线图、曲线图、饼图、散点图、雷达图等。注意:Excel中的图表类型与统计中的图表类型并不完全一样,如Excel中的“散点图”既包括了统计上的散点图,又包括了统计上的曲线图。

292.2课后习题详解ー、单项选择题统计调查对象是()。A.总体各单位标志值B.总体单位C.现象总体D.统计指标【答案】C【解析】统计调査对象是需要进行调查的社会经济现象的总体,它是由性质上相同的许多调查单位组成的。我国统计调査体系中,作为“主体”的是()。A.经常性抽样调査B.必要的统计报表C.重点调查及估计推算等D.周期性普查【答案】A【解析】统计调查体系是ー个国家开展统计调查方法和制度的总称。我国现行的统计调查体系是:以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分全面报表综合运用的统计调查方法体系。要对某企业生产设备的实际生产能力进行调查,则该企业的“生产设备”是()。A.调查对象B.调查单位C.调查项目D.报告单位【答案】A【解析】调查对象是指需要调查的现象总体,调查单位是指所要调查的具体单位,它

30是进行调查登记的标志的承担者。对于本题,该企业的所有生产设备为调査对象,而企业的每个生产设备为调查单位。与调查单位不同,报告单位是负责向上报告调查内容、提交统计资料的单位,它一般在行政上、经济上具有一定独立性。而调査单位可以是个人、企事业单位,也可以是物。根据不同的调查目的,两者有时一致,有时不一致。对于本题,报告单位是该企业。二、多项选择题下面哪些现象适宜采用非全面调査?()A,企业经营管理中出现的新问题B.某型号日光灯耐用时数检查C.某地区居民储蓄存款D.某地区森林的木材积蓄量【答案】ABCD【解析】统计调查按调查对象的范围不同,可分为:全面调查和非全面调査。全面调查是对构成调查对象的所有单位进行逐一的、无ー遗漏的调查,包括全面统计报表和普査:非全面调査是对调查对象中的一部分单位进行调查,包括非全面通缉报表、抽样调査、重点调查和典型调查等。非全面调查是对调查对象其中的一部分单位进行调査,以取得调查对象的一部分资料,用来推断总体或反映总体的基本情况。ABCD四项宜采用非全面调査法。抽样调査()。A,是ー种非全面调查B.是ー种非连续性的调查C.可以消除抽样误差D,应遵循随机原则【答案】ABD【解析】抽样调查是,ー种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的ー种调查方法。可分为概率抽样和非概率抽样。习惯上将概率抽样称为抽样调查。概率抽样是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算调查对象的总体特征。统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调査过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。洛伦茨曲线()。A,是ー种向下累计曲线

31B.可用于反映财富的分布曲线C.用以衡量收入分配公平与否D,越接近对角线基尼系数越大【答案】BC【解析】美国的洛伦茨博士把累计频数(或频率)分布曲线运用于研究社会财富、土地和エ资收入的分配是否公平,又称洛伦茨曲线,是ー种向上累计曲线。用实际收入分配曲线与绝对平等线所包围的面积对比总面积,计算基尼系数,以它衡量收入分配的平等与否。基尼系数值越小,即实际收入分配曲线越靠近绝对平等线,则收入分配越平等。三、分析判断题1.有人说抽样调查“以样本资料推断总体数量特征’’,其误差肯定比全面调查的误差大,你认为呢?答:这种说法不对。从理论上分析,统计上的误差可分为登记性误差、代表性误差和推算误差。无论是全面调查还是抽样调查都会存在登记误差。而代表性误差和推算误差则是抽样调查所固有的。这样从表面来看,似乎全面调查的准确性一定会高于统计估算。但是,在全面调查的登记误差特别是其中的系统误差相当大,而抽样调査实现了科学化和规范化的场合,后者的误差也有可能小于前者。我国农产量调查中,利用抽样调査资料估算的粮食产量数字的可信程度大于全面报表的可信程度,就是ー个很有说服カ的事例。过去统计报表在我国统计调査体系中占据统治地位多年,为什么现在要缩小其使用范围?答:统计报表制度是依照国家有关法规,自上而下地统ー布置,以一定的原始记录为依据,按照统一的表式、统ー的指标项目、统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的ー种调查方式。统计报表主要特点有:第一,报表资料的来源建立在各个基层单位原始记录的基础上,基层单位可利用其资料对生产、经营活动进行监督管理;第二,由于统计报表是逐级上报和汇总的,各级领导部门能获得管辖范围内的报表资料,了解本地区、本部门的经济和社会发展情况;第三,由于统计报表是属于经常性(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。但随着社会主义市场经济的发展,统计报表的局限性显现出来:统计调査单位变动频繁,再加上决策主体和利益主体的多层次化,各方面对统计数字真实性的干扰明显增加,从而影响统计数据的准确性;此外,统计报表的日常维持需要大量的人力、物力、财カ;而且统计报表的统计指标、指标体系不容易调整,对现代社会经济调査来说很不合适。因此,现在逐渐缩小其使用范围。对足球赛观众按男、女、老、少分为四组以分析观众的结构,这种分组方法合适吗?答:这种分组方法不合适。科学的统计分组应遵循两个原则:(1)符合“穷尽原则”,就是使总体中的每ー个单位都应有组可归,或者说各分组的空间足以容纳总体的所有单位;

32(2)遵守“互斥原则”,即总体任ー单位都只能归属于ー组,而不能同时或可能归属于几个组。本题所示的分组方式违反了“互斥性原则”,例如,一观众是少女,若按以上分组,她既可被分在女组,又可被分在少组。以ー实例说明统计分组应遵循的原则。答:统计分组应遵循的原则是穷尽原则和互斥原则。单位:%6294254102798128171610181424119设20个企业的产值利润率分别是:序号按产值利润率分組(*)企业数(个)10——109210208320——303具体分组如下:产值利润率的取值范围从〇〜30%,使20个企业都有组可归,这就遵循了分组的“穷尽原则其中有两个企业的产值利润率为10%,该数值同时作为相邻两组的临界值,统计上规定“上线不在内”,把这两个企业列在第2组,就遵循了“互斥原则”。四、计算题抽样调査某地区50户居民的月人均可支配收入数据资料如下(单位:元):88692899994695086410509279498521027928978816100091810408541100।90086690595489010069269009998861120893900800938864919863981916818946926895967921978821924651850要求:(可利用Excel)

33(1)试根据上述资料编制次(频)数分布和频率分布数列。(2)编制向上和向下累计频数、频率数列。(3)绘制直方图、折线图、曲线图和向上、向下累计图。(4)根据图形说明居民月人均可支配收入分布的特征。解:(1)编制次(频)数分布和频率分布数列如表2-1所示。表2-1次(频)数分布和频率分布数列表—次(频)数频率(%)居民户月消费品支出额(元)800以下800-850850-90()900-950950-10001(XX)-10501050-1100110()以上141218841228243616824合计50100.(X)(2)编制向上和向下累计频数、频率数列如表2-2和表2-3所示。表2-2居民的月人均可支配收入向上累计表—向上累计向上累计频率(%)居民的月人均可支配收入上限(元)80012850510900173495035701(X)043861050479411004896115050100表2-3居民的月人均可支配收入向下累计表.i向下累计频数向下累计频率(%)居民的月人均可支配收入下限(元)6008008509009501000105011005049453315732100989066301464(3)绘制向上、向下累计图如图2-2和图2-3所示。

34图2-2向上累计图图2-3向下累计图(4)主要操作步骤:①次数和频率分布数列输入到Excel。②选定分布数列所在区域,并进入图表向导,在向导第1步中选定“簇状柱形图’’类型,单击“完成’’,即可绘制出次数和频率的柱形图。③将频率柱形图绘制在次坐标轴上,并将其改成折线图。主要操作步骤:在“直方图和折线图”基础上,将频率折线图改为“平滑线散点图”即可。

352.3考研真题与典型习题详解ー、单项选择题在ー项化妆品市场调查中,考虑到男女性别对化妆品的要求有所不同,抽样时分别从男性和女性消费者中独立地随机抽取相同比例的人数作样本,这种抽样方式是()。[中央财经大学2014研]A,简单随机抽样B.分层抽样C.系统抽样D.整群抽样【答案】B【解析】分层抽样是先将总体的单位按某种特征分为若干级次层,然后再从每ー层内进行单纯随机抽样,组成一个样本。调查中先将总体按性别分为两层,再从这两层内独立随机抽取,为分层抽样。样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的()。[东北财经大学2013研]A.25%B.40%C.50%D.75%【答案】C【解析】下四分位数是指处在25%位置上的数值,上四分位数是指处在75%位置上的数值。因此样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的50%。在整群抽样中,各群间为抽样调査,群内为全面调査,故影响抽样平均误差的是()〇[四川大学2013研]A.群间方差B.群内方差C.总体方差

36D.协方差【答案】A【解析】在整群抽样时,总体方差分为群内方差和群间方差两部分,由于在总体各群间进行随机抽样,使得抽样平均误差由群间方差的大小来决定,对被抽中的群进行全面调查所以不存在抽样误差即群内方差不影响抽样误差。下列各项中存在抽样误差的调查方式是()。[首都经济贸易大学2013研]A.方便抽样B.普查C.概率抽样D,判断抽样【答案】C【解析】抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差只存在于概率抽样中。用样本资料推断总体资料不可避免要产生()。【四川大学2013研]A.登记性误差B.实际性误差C.代表性误差D,主观性误差【答案】C【解析】代表性误差又称抽样误差,主要是指在用样本数据向总体进行推断时所产生的随机误差。从理论上讲,这种误差是不可避免的,但它是可以通过计算得出并且加以控制的。某市场调查公司为了对一家大型商场做顾客满意度调查,对不同性别和年龄的顾客按事先规定的人数随意进行了一些调查询问,这种调查属于()。[中央财经大学2012研]A.任意调查B.立意调查C,配额抽样D.整群抽样【答案】A【解析】任意抽样又称为便利抽样或偶遇抽样,它是任由调查者的便利而随意选取ー些个体作为样本。立意抽样又称判断抽样,是指根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。配额抽样也称定额抽样,是指调查人员将调査总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽

37选样本的抽样方式。整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的ー种抽样方式。若连续变量分组,第一组45〜55,第二组55〜65,第三组65〜75,第四组75以上。则()〇[江苏大学2012研]A.45在第一组B.55在第一组C.65在第二组D.75在第三组【答案】A【解析】绘制频数分布表,在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。为了了解顾客对商场的满意度,在该商场门口访问了100位顾客,所调查的数据是()〇[首都经济贸易大学2011研]A.一手资料B.实验数据C.次级资料D,间接数据【答案】A【解析】统计调査的数据一般称为观测数据,属于一手资料。CD项表述的是同一个意思,间接数据属于二手资料。将全部变量值依次划分为若干个区间,并将这一区间的变量值作为ー组,这样的分组方法称为()。[南京财经大学2011研]A.单变量值分组B.组距分组C.等距分组D,连续分组【答案】B【解析】数据分组的方法有单变量值分组和组距分组两种。单变量值分组是把每ー个变量值作为ー组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。组距分组是将全部变量值依次划分为若干个区间,并将一个区间的变量值作为ー组,在连续

38变量或变量值较多的情况下通常采用组距分组。在组距分组时,如果各组的组距相等,则称为等距分组。如果各组的组距不相等,则称为不等距分组。雷达图的主要用途是()。[浙江工商大学2()11研]A.反映一个样本或总体的结构B.比较多个总体的构成C.反映一组数据的分布D.比较多个样本的相似性【答案】D【解析】雷达图在显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。在纯随机不重复抽样的情况下,调查了全及总体的5%,其抽样误差比纯随机重复抽样小()。[江苏大学2011研]A.2.53%B.5.0%C.50%D.95%【答案】A【解析】在重置抽样时,样本均值的抽样标准误为:五,在不重置抽样时,样本均值的标准误为:G=Cドー“,あ、N-1其中N-1为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,N比较大而唄セ5%时,修正系数可以简化为(レ也り,当N比较大而"/“<5%时,修正系数可以近似为1,即可以按重置抽样计算。所以不重复抽样的抽样误差比重复抽样多了一个系数为(〜网。即抽样误差比纯随机重复抽样小"732530°为调查某地区男性所占比例,从该地区随机重复抽取ー个容量为100的人口样本,该样本中男性比例为55%,则男性比例的抽样平均误差为()。[江苏大学2011研]A.0.245B.0.0497C.0.4975

39A.0.5500【答案】B【解析】在重置抽样时,样本均值的抽样平均误差为:%=c/石=[px(l_p)/板=70.55x0,45/^〇〇=0.0497某政府机构想尽快了解社会公众对其出台的ー项政策的态度,最恰当的数据搜集方式是()〇[中央财经大学2011研]A.面访B.深度访谈C.计算机辅助电话调查D.邮寄调查【答案】C【解析】计算机辅助电话调査是利用现代化电脑程控通讯设备进行的随机电话访问方式,采用这种访问调查方式,具有调查内容客观真实、保密性强、访问效率高等特点〇A项,面访即调查者直接走访被调查者,当面听取被调查者的意见,形式上可以个别面谈,也可以小组座谈,面访比较全面、深入,能获得大量真实的研究资料,但这种方法容易使研究结论带有主观成分;B项,深度访谈是ー种无结构的、直接的、ー对一的访问形式;D项,邮寄调查法,是指将事先设计好的调查问卷,通过邮政系统寄给被调查者,由被调查者根据要求填写后再寄回,是市场调查中一种比较特殊的调查方法。某外商投资企业按エ资水平分为四组:1000元以下,1000-1500元;1500-2000元;2000元以上。第一组和第四组的组中值分别为()。[首都经济贸易大学2009研]A.750和2500B.800和2250C.800和2500D.750和2250【答案】D【解析】根据开口组组距与相邻组组距相同均是500,以及第一组的上限是1000,第四组的下限是2000,可得:第一组的组中值=1000-500+2=750第四组的组中值=2000+500+2=2250统计分组的核心问题是()。[西安交通大学2006研]

40A.选择分组方法B.确定组数C.选择分组标志D.确定组中值【答案】C【解析】分组标志作为现象总体划分为各个不同性质的组的标准或根据,选择的正确与否,关系到能否正确地反映总体的性质特征、实现统计研究的目的任务。某餐厅为了解顾客对餐厅的意见和看法,管理人员随机抽取了50名顾客,上门通过问卷进行调查。这种数据的收集方法称为()。A.观察式调查B.实验调查C.面访式问卷调査D,自填式问卷调査【答案】C【解析】面访式是指现场调査中调査员与被调查者面对面,调査员提问、被调查者回答的调查方式。抽样调査与重点调查的主要区别是()。A.作用不同B.组织方式不同C,灵活程度不同D.选取调查单位的方法不同【答案】D【解析】抽样调查与重点调查的主要区别是选取调查单位的方法不同。抽样调查属于概率抽样调查,是按照随机原则从总体中抽取样本,并根据调查取得的样本资料推算总体目标量的调查方式:重点调查属于非概率抽样调查,它是在所要调查的总体中选择ー部分重点单位进行的调査,由于不是按照随机原则抽取样本,调查结果一般不用于推断总体数量特征。二手数据的特点是()。A.搜集方便、数据采集快、采集成本低B.采集数据的成本低,搜集比较困难

41C.数据可靠性较好D,数据的相关性较好【答案】A【解析】二手数据是指与研究相关的原信息已经存在,只是对原信息重新加工、整理,使之成为进行统计分析可以使用的数据。二手数据具有搜集方便、数据采集快、采集成本低等优点,但是得到的数据往往缺乏相关性。划分全面调查与非全面调査的标志是()。A.资料是否齐全B.调查单位是否为全部C.调查时间是否连续D.调查项目是否齐全【答案】B【解析】统计调査按被研究总体所包括范围的不同,可分为全面调查和非全面调査:前者是对被研究总体的所有单位ーー进行调査;后者是选取被研究现象总体中的一部分单位进行调査。二、多选题下面抽样方式中,属于非概率抽样的有()。[西安交大2007研]A,方便抽样B.滚雪球抽样C.配额抽样D.多阶段抽样E.自愿样本【答案】ABCE【解析】非概率抽样包括方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。D属于概率抽样。经济普查是()。[首都经贸2006研]A.专门调查B.一次性调查C.全面调查D.非全面调査【答案】ABC【解析】普査是专门组织的ー种全面调査,它主要用以搜集某些不能或不宜用定期

42报表搜集的统计资料。三、简答题何谓概率抽样?试举例说明其包括的主要抽样组织形式。[首都经济贸易大学2013研]答:概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。调查的实践中经常采用的概率抽样方式有以下几种:(1)简单随机抽样。简单随机抽样指从包括总体N个单位的抽样框中随机地、一个ー个地抽取n个单位作为样本,每个单位入样的概率是相等的。(2)分层抽样。分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。(3)整群抽样。整群抽样是指首先将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调査。(4)系统抽样。系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取ー个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。(5)多阶段抽样。采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进ー步抽样,从选中的群中抽取出若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样;这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。简述影响样本容量(或抽样数目)的因素。[四川大学2013研]答:(1)在抽样调查中,影响样本容量的因素有以下几方面:①总体的变异程度(总体方差);②允许误差的大小;③概率保证度ト。的大小;④抽样方法不同;⑤抽样组织方式。(2)从定性的方面考虑样本量的大小,其考虑因素有:①决策的重要性;②调研的性质;③变量个数;④数据分析性质;⑤资源限制等。具体而言,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本容量;探索性研究,样本量一般较小,而结论性研究如描述性的调査,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。在调查某个县城的家庭年平均收入时,能否只在该市的娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行随机抽样?原因是什么?能否只在该市的公共汽车站进行随机抽样?原因是什么?[首都师范大学2012研]答:随机抽样也称概率抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的

43机会被选入样本。在调查某个县城的家庭年平均收入时,不能只在该市的娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行随机抽样。抽样框选择的不合理,只在娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行随机抽样,抽选的样本是收入较高的ー层,不具有代表性。只在该市的娱乐场所(如电影院、歌剧院、游乐场、健身馆等)进行抽样没有保证该县城中每个人被抽中的机会均等。故不能用所抽的样本对总体目标量进行估计。也不可只在该市的公共汽车站进行随机抽样,只在该市的公共汽车站进行随机抽样仍然是抽样框选择不合理。这样选择的样本只针对经常坐公共汽车的人群,而忽略了乘坐其他交通工具和不乘坐交通工具的人群。所得结果仍然不合理。简述如何进行统计分组。[中南财经政法大学2004研]答:统计分组的方法有单变量值分组和组距分组两种。单变量值分组是把每ー个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用。在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为ー组。分组具体步骤如下:第1步:确定组数。第2步:确定各组的组距。一般情况下.ー组数据所分的组数不应少于5组且不多于15组,即把KS5。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。采用组距分组时,需要遵循“不重不漏”的原则。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内’’的规定解决“不重’’的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后ー组可以采取“xx以下,,及“xx以上”这样的开口组。开口组通常以相邻组的组距作为其组距。

44简述概率抽样与非概率抽样的区别。答:(1)概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调査。(2)概率抽样与非概率抽样的区别:概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所要的样本量。而非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。五、计算题表2-4是某考试管理中心对2013年参加成人自学考试的12000名学生的年龄分组数据。表2-4成人自学考试学生的年龄分组表年龄(岁)18-192〇〜2122-2425-2930-3435-3940—4445-59%1.934.734.117.26.42.71.81.2要求:(1)对这个年龄分布作直方图。(2)从直方图分析成人自学考试人员年龄分布的特点。4O353O2S2OISIO5O・“6S334メURla67*技年龄分帆解:(1)绘制成人自学考试年龄分布的直方图,如图2-4所示图2-4成人自学考试年龄分布的直方图(2)从直方图可以清楚地看出,成人自学考试人员年龄的分布为右偏,也就是年龄在2()〜24

45岁的人占绝大比例,而年龄在40岁以上的人所占的比例很小。某家商场为了了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。其学历表示为:1:初中,2:高中或中专,3:大专,4:本科及以上。调査结果如表2-5所示。1222434414224443242231214414242332134344331242432423222122442123333331234331323243134342142212334121表2-5调查结果表(1)表2-5中的数据属于什么类型?(2)制作ー张频数分布表。(3)绘制ー张条形图,反映顾客的学历分布。(4)绘制评价等级的帕累托图。解:(1)表2-5中的数据属于顺序数据。(2)制作频数分布表,如表2-6所示。按照学历分娘父獵(人)要率(%)初中1313.00高中或屮专3131.00大专2727.00本科及以上2929.00合计100100.00表2-6频数分布表(3)绘制条形图,如图2-5所示。

46图2・5条形图学历(4)绘制评价等级的帕累托图,如图2-6所示。图2-6帕累托图

47第三章数据分布特征的描述3.I复习笔记ー、统计变量集中趋势的测定测定集中趋势的指标及其作用(1)两大类指标①数值平均数:是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数。②位置代表值:是根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。(2)作用①反映变量分布的集中趋势和一般水平。②可用来比较同一现象在不同空间或不同阶段的发展水平。a.可以消除因总体规模不同而带来的总体数量差异,使不同规模的总体水平具有可比性。b.可以在一定程度上使偶然因素的影响相互抵消,用以比较现象在不同总体之间的水平差异或说明现象发展变化的趋势和规律性。③可用来分析现象之间的依存关系。④平均指标也是统计推断中的ー个重要统计量,是进行统计推断的基础。2.数值平均数(1)算术平均数也称均值,是将一组数据的总和除以这组数据的项数所得的结果,最为常用。具体计算方法包括:①简单算术平均数

48对于未分组的数据,若以モ表示第i项数据('=12…ノ),x表示这〃项数据的平均数,则计算公式为:

49②加权算术平均数对于分组数据,若以る表示第i组的变量值1=L4,"),£表示第i嚏=x/+モエー…+xj:=ぶ通常简记为已ェ+厶+…+んミ/>1Z/组的频数,则计算公式为:注意:a.分组数据中,各组频数就是权数,加权算术平均数的数值不仅受各个变量值大小的影响,也要受权数大小的影响。b.权数也可以用比重形式(如频率)来表示,比重权数更能够直接表明权数的权衡轻重作I=y.キj也可简记为刀=yxg/用的实质。因为影响作用的轻重或贡献的大小本来就是相对而言的。其计算公式为:③由组距数列计算算术平均数运用该方法需注意:用各组组中值代表各组实际数据的水平,其假定条件是各组内的数据呈均匀分布或对称分布;由组距数列计算的平均数一般只能是近似值。④对相对数求算术平均数在对一系列相对数进行平均时,由于各个相对数的对比基础不同,采用简单算术平均通常是不合理的,需要进行适当的加权。总体的相对数等于各组相对数的加权算术平均数,其权数为该相对数的分母指标。⑤算术平均数的主要数学性质a.算术平均数与变量值个数的乘积等于各个变量值的总和,即该性质表明:算木平均数可以用来推算相应的总量;当各个变量值相加的总和有意义时,求这些变量值的平均数就适合用算术平均数。

50£(キー@=ob.各变量值与算术平均数的离差之总和等于零,即该性质表明:算术平均数是ー组数据的重心,它是将各个数据的差异抽象掉之后用来代表变量的一般水平、说明ー组数据分布的中心位置的代表值。Z(そー,=min亦即士(X;-ザ<£(X一七)'C.各变量值与算术平均数的离差平方之总和为最小。为中心所得到的离差平方总和,即其中え为其他任一数值。该性质表明:若以离差平方来衡量各个变量值与数据分布中心的差异,算术平均数作为数据一般水平和中心位置的代表值是最理想的。(2)调和平均数调和平均数是数据倒数的算术平均数的倒数,用符号ら表示。社会经济现象中应用的调和平均数通常是加权算术平均数当其分母未知时的变形,ゝ…一天セ%大毛/+叫+…+て其计算公式为:其中,‘表示各变量值’对应的权数。当,全部相等时,加权调和平均数简化为简单调和平均数。

51(3)几何平均数①定义:几何平均数(geometricmean)是n个变量值连乘积的〃次方根,分为简单几何平均数和加权几何平均数两种形式,用符号れ%=衿セ…一x"二扣と表示。其计算公式为:若各个变量值セ对应的权数£1=12…,ん)不尽相同,则计算公式为:②适用场合:主要用于对具有环比性质的比率求平均以及计算现象的平均发展速度。2.众数与中位数(1)众数①定义:众数(mode)是ー组数据中出现频数最多、频率最高的变量值,常用Mo表示。②众数的作用:不仅可以度量定量变量(数值型数据)的集中趋势,也可以用来测度定性变量(非数值型数据)的集中趋势。③众数的确定a.可根据分组数据或分布图形直接观察而得,但在组距数列中较为麻烦。b.在组距数列中需要先找到众数组,然后根据众数组次数与其相邻两组次数的关系来近似推算众数的具体数值,其近似公式为:下限公式上限公式其中,“。表示众数,上、レエ、ム,分别代表众数组的下限、上限和组距,d为众数组次数与其前ー组的次数差,よ为众数组次数与其后ー组的次数差。

52(2)中位数①定义:中位数(median)是将数据由小到大排列后位置居中的数值,常用Me表示。②中位数的确定a.对于未分组资料,如果数据项数是奇数,则正好位于中间的数值就是中位数;如果数据项数是偶数,则取居中两个数值的平均数作为中位数。b.对于组距数列,需先找到中位数组,即中间位置(用2来计算)所在的组。然后根据中位数组内次数均匀分布的假定,近似推算中位数,其近似公式为:下限公式上限公式其中,”.表示中位数,ム,、じ凡、du.和ん.分别代表中位数组的下限、上限、组距和次数,代表变量值小于中位数组下限的各组次数的累计数,Smt代表变量值大于中位数组上限的各组次数的累计数。注意:测度数据在特定位置上的水平,还可计算四分位数、十分位数和百分位数。与中位数计算原理相类似,它们是将数据由小到大排序后,分别位于全部数据1/4、1/10和レ100位置上的数值。(3)众数、中位数和算术平均数三者的性质比较①算术平均数是数值平均数,是利用全部数据加总来计算的平均数,综合反映了全部数据的信息。众数和中位数都是根据数据分布的特定位置所确定的集中趋势测度值,它们不能充分概括全部数据的信息。②算术平均数和中位数在任何一组数据中都存在而且具有唯一性,但并不是所有数据都存在众数,而且众数也不具有唯一性。计算和应用众数有两个前提:a.数据项数众多。众数一般用于描述总体,若用于描述样本,数据项数必须充分多,而且次

53数最多的值会很不稳定。b.数据具有明显的集中趋势。如果次数的差别不大,也就无所谓哪个值更具有普遍意义和代表性。③算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据,即对定性数据和定量数据都适用。④算术平均数要受数据中极端值的影响,而众数和中位数都不受极端值的影响。当数据分布偏斜程度较大(一端有极端值)时,不宜用算术平均数来代表一般水平。为排除极端值干扰,可计算切尾算术平均数(切尾均值)。⑤算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。(4)众数、中位数和算术平均数三者的数量关系对于呈现单峰分布特征的数据:如果数据的分布是对称的,则有*=〇;如果数据呈左偏(负偏)分布,则有7<ゝ/,<“。,反之亦然;如果数据呈右偏(正偏)分布,则有la)左偏(负偏)分布(b)对称件型分布(0右偏(正偏)分布ヌ。三者关系如图3-1所示:图3-1英国统计学家皮尔逊住ア卬「"")提出了一个经验公式:在数据分布呈轻微偏态时,三者之间的近似为:二、统计变量离散程度的测定1.测定离散程度的指标及其作用(1)测定离散程度的指标及分类①离散程度说明数据之间差异程度的大小,测度离散程度的指标称为变异指标。②常用的变异指标主要有两类:ー类是用绝对数或平均数表示的,主要有极差、四分位差、平均差、标准差等,这类变异指标的计量单位与数据的计量单位相同;另ー类是用相对数表示的,主要有离散系数、异众比率等,是没有量纲的比率。(2)变异指标的作用

54①说明数据的离散程度,反映变量的稳定性、均衡性。数据之间差异越大,说明变量的稳定性或均衡性越差。反之,说明变量的稳定性或均衡性越高。②衡量平均数的代表性。数据分布越分散、离散程度越大,平均数的代表性就越小;反之,平均数的代表性就越大。③在统计推断中,变异指标常常还是判别统计推断前提条件是否成立的重要依据,也是衡量推断效果好坏的重要尺度。1.极差、四分位差和平均差(1)极差①定义:极差(range)是ー组数据的最大值(マな)与最小值(/M)之差,通常用於表示。对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距或范围«其计算公式为:&=胃口一/出。②适用场合:极差一般只对未分组数据或单项数列计算。对于组距数列,极差只能根据最高水平组的上限减去最低水平组的下限来近似计算。③优点:最简单的变异指标,计算简便、含义直观、容易理解。④缺点:它只利用了最大和最小两个尾端的信息,未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。因此在实际中极差的应用并不多。(2)四分位差①定义:四分位差(quartiledeviation)是第3四分位数(2)与第1四分位数(0)之差,常用心表示。四分位差越大,表示数据离散程度越大,其计算公式为:0=。ド。1。②适用场合:属于一种顺序统计量,适用于定序数据和定量数据,尤其是当用中位数来测度数据集中趋势时,对应的离散程度特别适合用四分位差来描述。③优点:是对极差的改进,避免了极端值的干扰。当ー组数据中极端值较突出时,可采用四分位差来反映数据的离散程度。④缺点:它仍然只利用了两个位置的信息,并没有考虑全部数据的差异情况,因此它对数据差异的反映也是不够充分的。(3)平均差①定义:平均差(averagedeviation)是各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以バQ

55Ekーマ表示。根据未分组数据计算的平均差,是离差绝对值的简单算术平均数,其计算公式为Ekー赤.3上ー——根据已分组数据计算的平均差,是离差绝对值的加权算术平均数,其计算公式为②优点:含义清晰,计算结果容易理解,与极差、四分位差相比,平均差是利用全部数据信息计算的变异指标,所以它能够全面地概括反映数据之间的离散程度。③缺点:平均差为了避免离差正负抵消而取离差绝对值进行平均,这种形式使得数学处理上不够方便,同时在数学性质上也不是最优的。在统计实践中,其应用并不多见。1.方差和标准差(1)方差和标准差的计算①方差是各个数据与其均值的离差平方的算术平均数。总体方差通常以び表示,其计算公式为:a.未分组数据注意:样本方差(通常用ズ表示)的计算公式略有差别,这是因为样本方差作为总体方差的估计量,为了满足估计量无偏性的要求,计算公式中分母就不能用n而应为(n-1)。b.已分组数据②方差的算术平方根即为标准差。总体标准差一般用び表示。其计算公式为:nZ(x-x)ホ

56a.未分组数据_ミ(演臼’£ぴ=病=j=i_^1铝b.已分组数据③比较:两者用于测度数据的离散程度其作用实质上是一致的,但标准差的计量单位与所测度数据的计量单位相同,计算结果的实际意义要比方差更容易理解。在实际统计分析中,标准差比方差应用更为普遍,常被用作测度数据与均值差距的标准尺度。方差和标准差的数值越大,说明变量的变异程度越大;反之,数据越集中。④优点:两者都是根据全部数据计算的,能够充分利用全部数据的差异信息,全面反映出数据的离散程度。由于对离差取平方进行计算,标准差对较大偏差的反映更为灵敏,一般情况下(当大多数离差绝对值大于1时),根据同一组数据计算的标准差要比平均差大些。(2)方差的主要数学性质%:=0①常数的方差等于零。设。为常数,则有:②变量的线性函数的方差等于变量系数的平方乘以变量的方差。设・6为常数,…+以,则有:ガダ③分组条件下,总体的方差等于组间方差(。ユ)与各组组内方差的平均数(チ)之和,即ゴ=w—

57组内方差平均数(び,和组间方差(の)的计算公式分别为:JI:-1其中,テ为总体平均数,エ、ゴ和/分别为第i组("12…》)的平均数、方差和数据个数。(3)标准化值对于来自不同均值和标准差的个体的数据,往往不能直接对比,需要将数据进行标准化,转化为同一规格、尺度的数据后再比较,即将数据转换为标准化值(或标准得分)。标准化值一般用Z表示,也称z值,其计算公式为:注意:标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个个体的数据转换为其在总体中的相对位置。标准化值的比较只有相对意义,没有绝对意义。(4)对称钟型分布中的3び法则①对称钟型分布的特点:数据分布以均值为中心两边对称,且中间数据出现的频数多而两尾出现的频数少。②对称钟型分布的相关结论:a.大约68%的数据分布在均值左右1个标准差的范围内;b.大约95%的数据分布在均值左右2个标准差的范围内;c.大约99%的数据分布在均值左右3个标准差的范围内。通常将落在区间自ー3c,マ-3口之外的数据称为异常数据或称为离群点,这是统计上很重要的3び法则。如图3-

582所示:图3・2注意:社会经济现象和自然技术现象中,许多变量的分布都呈近似的对称钟型分布。通常可利用上述结论来估计落在均值マ左右一定区间内的数据个数所占百分比。1.离散系数(1)定义:离散系数(coefficientofvariation)也称为变异系数,是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称之为标准差系数,常用乙表示,即离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之,其平均数的代表性就强。(2)适用场合:对不同变量(或不同数据组)的离散程度进行比较时,当它们的平均水平和计量单位不相同时,须将平均水平或计量单位的差异抽象掉,利用离散系数来比较它们的离散程度。5,异众比率(1)定义:异众比率(variationratio)是指非众数值的次数之和在总次数中所占比重,其值越小,说明数据的集中程度越高,众数的代表性越大;反之,众数的代表性越小。可用レス表示,其计算公式为:其中',代表总次数;ん代表众数值的次数。(2)作用及适用范围:异众比率主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表ー组数据一般水平的代表性。主要适用于测定定性变量的离散程度,也可以用于测定定量变量(数值型数据)的离散程度。三、变量分布的偏度与峰度

59ロ矩(1)定义:矩也称为动差,原是物理学术语,统计学上常用它来刻画数据分布特征。我£ほー。)ソ们将所有变量值与数值。之离差的K次方的平均数称为变量x关于。的K阶矩,即①K阶原点矩:当a=0时的K阶矩,是数据的K次方的平均数,其公式为:

60zz其中,眞、.分别为各组变量值及其对应的权数。注意:ー阶原点矩即算术平均数,二阶原点矩即平方平均数。②K阶中心矩:当。=テ时的K阶矩,即以均值为中心计算变量的离差的K—£叫二上JZZ次方的平均数,记为%,其公式为:注意:当时,称为ー阶中心矩(ー阶中心动差),它恒等于〇,即!当时,称为二阶中心矩(二阶中心动差),也就是方差,即啊=b。2.偏度(1)定义:偏度(S妬“ルむ)是指数据分布的不对称程度或偏斜程度。偏态分布又分左偏(亦称为负偏)和右偏(亦称为正偏)两种。(2)偏度的测度①利用算术平均数、中位数和众数三者之间的关系来测度:若数据分布是对称时,三者相等:若分布是偏态,三者不相等;偏态越严重,三者差距就越大。モ二丝:a②利用均值、众数及标准差来测度,其公式为:该方法测度偏态最为简单,其数值一般应在ー3〜〇及〇〜+3之间。数值为0表示对称分布,-3表示极左偏态,+3表示极右偏态。③利用分位数来测度。若为对称分布,第1四分位数。1与第3四分位数2是关于中位数对称的。根据分位数的性质,可利用左右两侧的分位数与中位数之间的距离来测度偏态的方向和偏态程度,即

61(。3-M)-(Mー纟)_Q+。ー2MQ3-Q1Qi~Q\该式计算的数值在(-1,+1)的范围内变动。SK噜④利用中心矩计算偏度系数来测定偏度,该方法最常用。偏度系数(SK)的计算公式为:判断标准:如果ー组数据的分布是对称的,则SK=O;如果ー组数据的分布是左偏(负偏)的,则SK<0;如果一组数据的分布是右偏(正偏)的,则夂>0。偏斜程度越严重,SK的绝对值越大。3.峰度(1)定义:峰度(kurtosis)是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。一般将峰度分为正态峰度、尖顶峰度和平顶峰度三种。当变量分布曲线比正态分布曲线更加尖峭、更高更窄,称为尖顶峰度;当变量分布曲线比正态分布曲线更为平缓、更低更扁平顶分布迷<«>平,称为平顶峰度,如图3-3所示:图3-3(2)峰度的测度:利用偶数阶中心矩计算峰度系数来测定峰度,峰度系数(用K表示)犬=±3的计算公式为:

62判断标准:当K=0时,分布曲线为正态曲线;当K>0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭;当时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分布曲线之顶端越平坦。四、利用Excel计算描述统计指标在计算描述统计指标时,Excel提供了以下两种方法:1.利用[描述统计】分析工具,该工具适用于未分组的原始数据;2.利用Excel的公式功能与相关的统计或数学函数,该方法既适用未分组的原始数据,又适用于分组数据。

633.2课后习题详解ー、单项选择题由变量数列计算加权算术平均数时,直接体现权数的实质的是()。A.总体单位数的多少B,各组单位数的多少C.各组变量值的大小D.各组频率的大小【答案】D【解析】权数是指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。加权算术平均数的数值不仅受各个变量值大小的影响,也要受权数大小的影响。由变量数列计算加权算术平均数时,各组频数就是权数,这是因为各组的频数大小衡量着对应的各组变量值对总体平均数的影响作用大小。频数大的变量值对总体平均数的影响较大,反之,则较小。2.若你正在筹划一次聚会,想知道该准备多少瓶饮料,你最希望得到所有客人需要饮料数量的()。A.均值B.中位数C.众数D.四分位数【答案】A【解析】算术平均数是数值平均数,即它是利用全部数据加总来计算的平均数,综合反映了全部数据的信息。算术平均数可以推算总体的有关总量指标,例如,根据居民人均消费量推算居民消费总量,而中位数和众数则不宜用作此类推算。本题中,通过饮料数量的均值及客人的数量,即可推断所需饮料的总数。3.2004年某地区甲、乙两类职エ的月平均收入分别为1060元和3350元,标准差分别为230元和680元,则职エ平均收入的代表性()。A,甲类较大B.乙类较大

64C.两类相同D,在两类之间缺乏可比性【答案】B【解析】甲的离散系数1060,乙的离散系数・3350,匕〉匕,所以乙类职エ的代表性大。假如学生测验成绩记录为优、良、及格和不及格,为了说明全班同学测验成绩的水平高低,其集中趋势的测度()。A.可以采用算术平均数B.可以采用众数或中位数C,只能采用众数D.只能采用四分位数【答案】B【解析】算术平均数是数值平均数,即它是利用全部数据加总来计算的平均数,综合反映了全部数据的信息。众数、中位数和四分位数都是根据数据分布的特定位置所确定的集中趋势测度值。算术平均数只能用于定量(数值型)数据,中位数、四分位数适用于定序数据和定量数据,众数对所有形式的数据(定性数据和定量数据)都适用。本题中测验成绩的记录结果为定性数据,所以B项正确。ー组数据呈微偏分布,且知其均值为510,中位数为516,则可推算众数为()。A.528B.526C.513D.512【答案】A【解析】英国统计学家皮尔逊(K.Pearson)提出了一个经验公式:在数据分布呈堡微偏态时エ算术平均数和众数、中位数三者之间存在如下的近似关系:了一M由此可得众数=528。当分布曲线的峰度系数小于0时,该分布曲线称为()。A.正态曲线B,尖顶曲线C.平顶曲线D.U型曲线

65【答案】C【解析】峰度(kurtosis)是变量分布的另ー个重要特点,是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。对峰度的度量通常以正态分布曲线为比较标准,一般将峰度分为正态峰度、尖顶峰度和平顶峰度三种。当K=0时,分布曲线为正态曲线;当K>0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;当时,为平顶曲线,表示数据比正态分布更分散。二、判断分析题有人调查了456位足球运动员某年的收入,发现他们的年收入以24.7万元为分布中心,但超过24.7万元的只有121人。试问,这里的24.7万元指的是哪ー种集中趋势指标?球员收入分布呈什么形状?为什么?答:均值。因为超过24.7万元的只有121人,不足一半,可知24.7不是中位数,也不是众数,均值高于中位数和众数,而只有较少的数据高于均值,所以数据呈右偏分布,存在极大值。2.任意ー个变量数列都可以计算其算术平均数、中位数和众数,并用以衡量变量的集中趋势吗?答:任意ー个变量数列都可以计算算术平均数和中位数,但可能无法计算众数,同样,算术平均数和中位数可以衡量变量集中趋势,但是众数有时则不能。因为有时有两个众数有时又没有众数。设ー组数据的均值为100,标准差系数为10%,四阶中心矩为3480〇,是否可认为该组数据的分布为正态分布?答:可计算出总体标准差=100xl0%=10,总体方差为100,于是峰度系数K=34800/10000=3.48,可以认为总体呈现非正态分布。峰度系数长==一3=^^-3=0.48ザ!04>0,属于尖顶分布,所以不能认为该组数据的分布为正态分布。某段时间内三类股票投资基金的年平均收益和标准差数据如表3-1所示。表3-1三类股票投资基金的年平均收益和标准差股票类别平均收益率(%)标推弟(%)A5.632.71B6.944.65C8.239.07

66根据上表中平均收益和标准差的信息可以得出什么结论?假如你是ー个稳健型的投资者,你倾向于购买哪ー类投资基金?为什么?答:平均收益率和标准差值来看,C类股票投资基金的收益率最高,但标准差最大,即证券自身的波动最大,投资风险最高。B类股票投资基金的收益率和投资风险居中,A类股票投资基金的收益率最小,其自身的波动性最小,投资风险最低。计算三类股票基金的标准差系数:V.=ニー=0.48股票A平均收益的标准差系数'5.63;v=4竺=067股票B平均收益的标准差系数06.94;y=‘〇,=]]〇股票C平均收益的标准差系数c8.23•。,可知C类的投资风险亦是最大。因此A类股票适合于保守型投资者,C类股票适合于激进型投资者,而B类股票更适合于稳健型的投资者。一般说来,ー个城市的住房价格是高度偏态分布的,为了了解房屋价格变化的趋势,应该选择住房价格的平均数还是中位数?如果为了确定交易税率,估计相应税收总额,又应该作何种选择?答:当数据分布偏斜程度较大(一端有极端值)时,不宜用算术平均数来代表数据的一般水平,算术平均数会数据中极端值的影响,而众数和中位数都不受极端值的影响。该市的住房价格呈高度偏态分布,为了了解房屋价格变化的走势,宜选择住房价格的中位数来观察。算术平均数可以推算总体的有关总量指标,例如,根据居民人均消费量推算居民消费总量,而中位数和众数则不宜用作此类推算。所以如果为了确定交易税率,估计相应税收总额,应利用均值。某企业员エ的月薪在1000到4000元之间。现董事会决定给企业全体员エ加薪。如果给每个员エ增加200元,则:(I)全体员エ薪金的均值、中位数和众数将分别增加多少?(2)用极差、四分位差、平均差和方差、标准差分别来衡量员エ薪金的差异程度,加薪前后各个变异指标的数值会有什么变化?(3)加薪前后员エ薪金分布的偏度和峰度有无变化?(4)如果每个员エ加薪的幅度是各自薪金的5%,则上述三个问题的答案又有什么不同?答:(1)均值增加200元。

67可得,中位数与众数也分别增加200。(2)均不变。对于方差N,可知薪金增加后不影响方差及标准差的变化;对于平均差-V,可知薪金增加后不影响平均差的变化,易知可知极差、四分位差也未变化。(3)均不变。偏度系数(SK)由变量的三阶中心矩吗与其变准差的三次方之比而得,即峰度系数(K)由变量的四阶中心矩ル4与其标准差的四次方之比而得,即易知偏度系数及峰度系数无变化。(4)每个员工薪金增加5%后:①全体员エ薪金的均值、中位数和众数将分别变为原来的1。5倍;

68②极差、四分位差、平均差和标准差将分别变为原来的1.05倍,方差变为原来的1.1025倍;③偏度和峰度无变化。三、计算题某公司下属两个企业生产同一种产品,其产量和成本资料如表3-2所示。基期报吿期冷位成本(元)产・(吨)単位成本<7C>产量(吨)甲企业60012006002400乙企业70018007001600表3-2甲、乙企业的产量和成本表试分别计算报告期和基期该公司生产这种产品的总平均成本,并用上述数据说明总平均成本变化的原因。600x1200+700x1800解:基期总平均成本=1200-1800=660(元)600x2400+700x1600报告期总平均成本=2400-1600=640(元)总平均成本下降的原因是该公司产品的生产结构发生了变化,即成本较低的甲企业产量占比上升而成本较高的乙企业产量占比相应下降所致。表3-3某公司生产产品的总平均成本基期报告期总成本单位成本(元)产量(吨)单位成本(元)产量(吨)基期(元)报告期(元)甲企业600120060024007200001440(H)0乙企业7001800700160012600001120000合计3000400019800002560000总平均成本6606402.设某校某专业的学生分为甲、乙两个班,各班学生的数学成绩如表3-4所示。表3-4数学成绩表

69甲60.79.48.76.67.58.65.78.64.75.76.78.84.48.25.90.98.70.77.78.68.74.95.85.68.80.92.88.73.65.72・74.99.69.72.74.85.67.33,94.57.6〇•班6U78.83.66.77.82.94.55.76.75.80.6191,74.62.72,90.94.76.83.92.85.94.83.77.82.84.60.60.51.60.78.78.80.70,93.84.81.81.82・85.78.80.72.64.41.75.78.61.42.53.92.75.81.班81.62.88.79.98.95.60.71.99.53.54.90.60.93

70926181858278两个班成绩分布特征的各种统计指标如表3-6所示。表3-6成绩分布统计指标—甲班乙班指标平均数72.70476.018标准误差1.9981.905中位数74.578.5众数7860(样本)标准差14.68114.257(样本)方差215.533203.254标准差系数0.20190.188峰度1.664-0.305偏度-0.830-0.5905区域7458最小值2541最大值9999求和39264257观测数5456(总体)方差211.542199.625从离散程度来看,甲班成绩的标准差系数%=02019,乙班成绩的标准差系数匕=0188,匕,匕,所以乙班成绩的波动性小,更稳定。从集中趋势来看,乙班成绩的平均数、中位数均大于甲班,而甲班的众数高于乙班。从最值来看,甲乙两班的最高成绩都是99,而乙班的最低分高于甲班。因此,总体而言,乙班的成绩好于甲班。根据第2小题的数据,试求该专业全部学生的总平均成绩和方差,并利用本题数据验证:分组条件下,总体平均数与各组平均数的关系以及总体方差与各组方差、组间方差的关系。Z(r-T):解:根据总体方差的计算公式ー«一一可得:;11423.2593211178.9821.....==211.54<72.==199.6254全部学生成绩的方差び’=22904.193:08Z99110

71不==ーヌ1=4+1993X6=ユ0卄i(r-r):n鬲no110(727037-743909:x54-(76.0179-743909):、56=2.745总体方差(208.2199)=组内方差平均数(205.4749)+组间方差(2.745)根据第2小题的数据,分别编制两个班成绩的组距数列(组距为10),然后由组距数列计算反映数据分布特征的各个指标,并观察与第2题所得到的计算结果是否相同?为什么?解:表3-7甲班的组距数列表成绩人数ア组中值xXf离差平方和(x-x)2/40以下235703273.142882.3840-50245901854.9591563.8650-603551651255.165968.00860-7013658451420.868824.32270-80197514253.9256278.83880-90885680728.92561159.1190以上7956652674.1743399.41合计54—394011211.1610875.9由3-7表可以计算出,甲班的平均成绩为72.963,样本方差为205.2,样本标准差为14.33。表3-8乙班的组距数列表成绩人数/组中值XXf离差平方和(x-x)2/40以下03500040-50245901854.9592159.1650-604552201673.5542089.7760-70965585983.6781487.7270-80147510502.893114.27480-90158512751366.736765.33790以上129511404584.2983526.59合计56——■——436010466.1210142.9

72由表3-8可以计算出,乙班的平均成绩为77.857,样本方差为184.4,样本标准差为13.58。某商贸公司从产地收购ー批水果,分等级的收购价格和收购金额如表3-9所示,试求这批水果的平均收购价格。、、水果等级、、收购电价(元/千克)收购额(元)甲2.0012700乙1.6016640丙1.308320介计一37660表3-9收购价格、收购金额表解:表3-10收购单价、收购金额和收购数量表水果等级收购单价(元/千克)收购金额(元)收购数量甲2.00127()06350乙1.601664010400丙1.3083206400合计—3766023150=1.6268(7L)ア收购总额里”ノ)12700-16640-8320ー收购总量ユ(X/)127001664083202X,2.00L60L30由上表计算可得,水果的平均收购价格为:6.某中学校正在准备给一年级新生定制校服。男生校服分小号、中号和大号三种规格,分别适合于身高在160cm以下、160〜168cm之间和168cm以上的男生。已知一年级新生中有1200名男生,估计他们身高的平均数为164cm,标准差为4cm。试由此粗略估算三种规格男生校服应该分别准备多少套(按每人1套计算)?

73解:均值=164;标准差=4;总人数=1200身高分布通常为钟形分布,按经验法则近似估计:表3-11身高分布表规格司同分布范围比重数量(套)小号160以下0.15865190.38中号160-168均值土lx标准差0.6827819.24大号168以上0.15865190.38合计1200平均数和方差一般只能对数值型变量进行计算。但若将是非变量(也称为是非标志)的两种情况分别用1和。来表示,则对是非变量也可以计算其平均数和对应的方差、标准差,试写出有关计算公式。解:用1代表“是“(即具有某种特征),〇代表“非"(即不具有某种特征)。设总次数为N,1出现次数为メ,频率(入"》)记为尸。由加权公式来不难得出:是非变量的均值=尸;方差=尸(1ーめ:标准差=回匸再。

743.3考研真题与典型习题详解ー、单项选择题以下关于极差离散系数说法错误的是()。[华东师范大学2014研]A,极差离散系数等于极差除以均值B,极差离散系数越大的数据,方差也越大C.极差离散系数不是稳健的统计量D,极差离散系数未必等于标准差离散系数【答案】B【解析】极差离散系数为极差与均值之比,标准差离散系数为标准差与均值之比,二者都可用于比较不同水平的变量数列的离散程度。极差为数列最大值与最小值之差,容易受极端值影响,因此,极差离散系数不是稳健的统计量。极差离散系数与标准差系数不一定相等,与数列方差没有必然联系。样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的()。[东北财经大学2013研]A.25%B.40%C.50%D.75%【答案】C【解析】下四分位数是指处在25%位置上的数值,上四分位数是指处在75%位置上的数值。因此样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的50%。当数列中存在明显极端值时,反映数列平均水平适合的指标是()。[四川大学2013研]A.算术平均数B,调和平均数C.几何平均数D,中位数【答案】D【解析】存在极端值时,平均数受极端值的影响较严重,中位数是中间位置上的数,较平均数有好的稳定性,不受极端值的影响。以下关于变异系数的说法错误的是()。[华东师范大学2013研]

75A.变异系数等于标准差除以均值B.变异系数没有单位、不受数据量纲的影响C.变异系数是稳健的统计量D,变异系数反应了数据的波动情况【答案】C【解析】离散系数也称为变异系数,它是ー组数据的标准差与其相应的平均数之比,它衡量的是统计资料离散程度,其计算公式为:匕マ。ラ卜.-H5.样本中位数和样本均值可以作为总体中心的估计,那么,使得とI1V(x-6)*达到最小的a应是(),使得占.达到最小的b应是()。[华东师范大学2013研]A.样本中位数,样本均值B.样本均值,样本中位数C.样本中位数,样本中位数D.样本均值,样本均值【答案】Afix-al【解析】セ1可以理解为各个样本到某个值的距离的总和,显然当a为中位数时,距离的总和能够达到最小值。V(x,-2dfx+nb~=Xx*2bx-b'IV(x.-d)*因为と.£*‘£■.金’,则若使な达到最小,也就是使2必ーガ达到最大,显然当6=え时,2必ーガ取最大值,也就是士达到最小。

76移动公司在对人们更换手机的频率的调査中发现,有40%的人每半年更换一次新手机,20%的人每1年更换一次,30%的人每2年更换一次,10%的人每3年更换一次,那么人们更换新手机时长的中位数为()年。[中山大学2013研]A.0.5B.1C.1.5D.2【答案】B【解析】中位数是指ー组数据排序后处于中间位置上的变量值。本题,按人们更换新手机时长进行排序后,很容易得出位于中间位置上,即50%的位置上的变量值为1,因此,人们更换新手机时长的中位数为1年。下列各项中,最容易受到极端值影响的是()。[首都经济贸易大学2012研]A.极差B.四分位差C.异众比率D,方差【答案】A【解析】极差是ー组数据的最大值与最小值之差,最容易受极端值的影响,因此,不能准确描述出数据的分散程度。四分位差是上四分位数与下四分位数之差,反映了中间50%数据的离散程度。异众比率是指非众数组的频数占总频数的比例,主要用于衡量众数对ー组数据的代表程度。方差是各变量值与其平均数离差平方的平均数。|ー组数据包含10个观察值,则下四分位数的位置为()。[江苏大学2012研]A.2B.2.5C.2.75D.3【答案】C【解析】四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数和上四分位数分别为Qi、Q"Q”则:Qi、Qユ、Q3的位置可由下述公式确定:_w+1_2(n+l)_n+1_3(ra+l)Q1的位置4,;Qユ的位置42;Q,的位置4式中n表示样本容量。

77对ー组数据的描述统计分析表明,样本均值=12.45美元,中位数=9.21美元,方差=22.85〇由此可以计算样本数据的离散系数为()。[中央财经大学2012研]A.0.38B.0.40C.0.54D.2.48【答案】A【解析】离散系数也称为变异系数(coefficientofvariation),它是ー组数据的标准差与其相应的平均数之比。其计算公式为:A、B两单位职エ平均エ资水平对比结果为工,〉爲,则两单位平均工资的代表性()。[首都经济贸易大学2011研]A.A单位的代表性高B.B单位的代表性高C.两单位的代表性一样D.不一定【答案】D【解析】若两单位的离散程度ー样,则说明A单位平均工资的代表性要高于B单位〇为消除变量值水平高低对离散程度测度值的影响,需要计算离散系数。某企业2010年1-4月初的商品库存额如下表:(单位:万元)月份1234月初库存额20241822则第一季度的平均库存额为()。[浙江工商大学2011研]A.(20+24+18+22)/4B.(20+24+18)/3C.(10+24+18+11)/3D.(10+24+9)/3【答案】C(—-a,+a3+—)/3=(—+24+18+—)/3【解析】该企业2010年第一季度的平均库存额为:2一’222

78两组数据的均值不等,但标准差相等,则()。[江苏大学2011研]A.两组数据的差异程度相同B.均值大的差异程度大C.均值小的差异程度大D.无法判断【答案】C【解析】对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的,此时需要计算离散系数,也称为变异系数。它是测度数据离散程度的相对统计量,离散系数大说明数据的离散程度也大;离散系数小说明数据的离散程度也小。其计算公式为'X,通过比较可知在标准差相等的条件下,均值小的离散系数大,即数据的差异程度大。现有一份样本,为100名中学生的IQ分数,由此计算得到以下统计量:样本平均(mean)=95,中位数(median)=100,下四分位数(lowerquartile)=70,上四分位数(upperquartile)=120»众数(mode)=75,标准差(standarddeviation)=30〇则关于这100名中学生,下面哪ー项陈述正确?()[中山大学2011研]A,有一半学生分数小于95B.有25%的学生分数小于70C.中间一半学生分数介于100到120之间D.出现频次最高的分数是95【答案】B【解析】一半学生分数小于中位数,即100;中间一半学生分数介于下四分位到上四分位之间,即介于70到120之间;出现频次最高的分数是众数,即75。下四分位数是指该样本中所有数值由小到大排列后第25%的数字,从题干中可知有25%的学生分数小于70。[一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?()[西安交通大学2006研]A,全班65%的同学的考试成绩高于均值B.全班65%的同学的考试成绩高于中位数C.全班65%的同学的考试成绩高于众数D.全班同学的考试成绩是负偏态分布

79【答案】B【解析】大部分同学的考试成绩集中于高分段,说明成绩分布时左偏分布。中位数是数据排序后,位置在最中间的数值。显然,中位数将数据分成两半,一半数据比中位数大,ー半数据比中位数小。I一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?()[西安交大2006研、北京大写200〇研]A,全班65%的同学的考试成绩高于均值B,全班65%的同学的考试成绩高于中数C.全班65%的同学的考试成绩高于众数D.全班同学的考试成绩是负偏态分布【答案】B【解析】中位数是数据排序后,位置在最中间的数值。显然,中位数将数据分成两半,一半数据比中位数大,ー半数据比中位数小。如果峰态系数K>0,表明该组数据是()。A,尖峰分布B.扁平分布C,左偏分布D.右偏分布【答案】A【解析】峰态系数用K表示。峰态通常是与标准正态分布相比较而言的。如果ー组数据服从标准正态分布,则峰态系数的值等于。;若峰态系数的值明显不等于〇,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。K>0,表明该组数据是尖峰分布;K<0,表明该组数据是扁平分布。甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩ス〉忌,标准差s,

80D.无法判断【答案】B【解析】为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需—__要计算标准差系数,其计算公式为:X,标准差系数越大,离散程度越大。由于レ<ゝ’乙,所以乙班学生统计学成绩离散程度较大。在离散程度的测度中,最容易受极端值影响的是()。A.极差B.平均差C.标准差D,标准差系数【答案】A【解析】众数和中位数不受极端值的影响,而ABCD四项都会受到极端值的影响,但是由于极差是ー组数据最大值与最小值之差,故最容易受极端值影响。在加权算术平均数公式中,若各个变量值都扩大3倍,而频数都减少为原来的1/3,则平均数()。A,不变B.减少3倍C.扩大3倍D,扩大4倍【答案】C【解析】假设原来的加权算术平均数为钎迎12メ,若变量值都扩大3倍,而频数都减少为原来的1/3,那么,二、简答题简述衡量数据离散程度的统计量有哪些,并说明各自的适用范围。[中央财经大学2013

81研、东北财经大学2014研]答:衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。(1)极差是指ー组数据的最大值与最小值之差。用及表示,其计算公式为:R=max(x;)-min(xt)极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。(2)平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之说明数据的离散程度小。为了避免离差之和等于零而无法计算平均差这ー问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理解。(3)方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均,方差开方后即得到标准差,方差或标准差能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。为什么要计算变异系数?[江苏大学2012研]答:变异系数又称离散系数或者标准差率。它与均值和方差相同,是衡量统计资料离散程度的又一指标统计量。方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另ー方面,它们与原变量值的计量单位相同。采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算变异系数。变异系数的计算方法是:均值与标准差的比。比值越大,说明样本离散程度越小。比值越小,说明样本离散程度越大。简述众数、中位数和平均数的特点和应用场合。[南京财经大学2011研]

82答:(1)众数的特点如下:①其优点是不受极端值的影响;②其缺点是具有不惟一性。ー组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时オ有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

83(2)中位数是ー组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是ー个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。(3)平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差〇因此当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。为客观反映某一地区职エ工资总体水平,你认为应采用何种方法计算哪些指标(或统计量),并进行简要说明。[首都经济贸易大学2011研]答:平均值,标准差,离散系数为反映某一地区职エエ资总体水平,需要对该地区职エエ资进行描述统计。职エエ资为数值型数据,反映数值型数据集中趋势的统计量为均值,反映数值型数据离散趋势的统计量为标准差或方差,反映数据分布的形状是否对称、偏斜的程度以及分布的扁平程度的统计量为偏态系数和峰态系数。所以要计算该地区职エ工资的均值、标准差、偏态系数和峰态系数。如何利用峰度系数和偏态系数判断数据分布的正态性?[中央财经2007研复试]答:峰度系数是用离差四次方的平均数再除以标准差的四次方,其计算公式为:式中:s4表示样本标准差的四次方。公式中将离差的四次方除以s'是为了将峰度系数转化成相对数。用峰度系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰度系数进行比较而言的。由于正态分布的峰度系数为0,当K>0时为尖峰分布,当K<0时为平峰分布。SK=偏态系数的计算公式为:,式中:s:表示样本标准差的三次方。从这个公式可以看出,偏态系数是离差三次方的平均数再除以

84标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而SK的分子等于。,即SK=O;当分布不对称时,正负离差不能抵消,就形成了正或负的偏态系数SK。当SK为正值时,表示正离差数值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差数值较大,可以判断为负偏或左偏。在计算SK时,将离差三次方的平均数除以,是将偏态系数转化为相对数。SK的数值越大,表示偏斜的程度就越大。简述均值、众数和中位数三者之间的关系及其在实际中的应用。[北京林业大学2006、2005研、中央财经大学2005、2002研、首都经贸2003研、中南财经政法大学2002研、人大2002研]答:(1)众数、中位数和平均数的关系从分布的角度看,众数始终是ー组数据分布的最高峰值,中位数是处于ー组数据中间位置上的值,而平均数则是全部数据的算术平均。对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:①如果数据的分布是对称的,众数(M0)、中位数(M,.)和平均数(マ)必定相等,即Mo=Mc=マ;②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:X③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则M.

85(1)计算数据的均值、中位数和众数。你认为哪ー个结果最能反映这组数据的一般水平?为什么?(2)根据以上数据给出数据的茎叶图。(3)绘制以上数据的简单箱线图。(4)根据以上计算和图形分析数据分布的特征。[中央财经大学2014研]解:(1)对数据进行排序:10,25,25,30,30,40,40,45,50,55,55,60,70,70,90_孕’10+55+…+70695均值マ=节・=一!5=TF=ほ"(分钟)众数M=25,30,435.70(分钟)方奇数サ)偶数,因此为第8个数值,",=45(分钟)其中均值最能反映这组数据的一般水平,因为均值是集中趋势的最主要测度值,且该组数据中不存在明显极端值,均值能较准确地反映这组数据的中心值。(2)茎叶图如表3-12所示:表3-12树茎树叶数据个数1234567905500005055000012233121(3)题目数据中,最大值=90,最小值=10,中位数=45下四分位数Q.的位置=15/4=3.75,因此Ql=25+O.75x(30-25)=28.75上四分位数Qu的位置=15x(3/4)=11.25,因此Qi,=55+0.25x(60-55)=56,25图3-4(4)从(1)中计算可知,均值大于中位数;从(2)中茎叶图可以看出数据分布不对称;从(3)中箱线图3-4可以看出数据呈右偏分布,从箱子的长度可以看出,此样本的数据分布比较分散。某班学生5月份上网情况如表3-13所示。(保留整数)

86表3/31:■人数(人)上网费用(元/月.人)上网时间(时/月.人)10以下5510-30301030-50502050—7020307()〜901()3590以上450(1)计算该班学生上网时间的众数;(2)计算该班学生上网时间的标准差及标准差系数;(3)计算每个学生上网时间和上网费用之间的相关系数。[四川大学2013研]解:(1)上网时间的众数在组别30〜50中,左右相邻组的频数(本题为上网人数)分别为30、20〇故由众数的的计算公式:众数=下组限X左相邻组的频数占左右相邻组总频数的百分比+上组限x右相邻组的频数占左右相邻组总频数的百分比。30x—+50x—=38可得众数为5050(时/月•人)。(2)以组中值代表该组的平均水平,并设下开口组的组距为10,上开ロ组的组距为20,〜ソ、5x5+20x30+40x50+60x20+80x10+100x4502515+30+50+20+10+4119上网时间为X小时。则上网时间的均值为方差为

87D(X)=£(X2)-(£(X))5*x5+20*x30+40*x50+60*x20+80*x10+100*x4,ヽ“ゝ5+30+50+20+10+4=42.23*=476.76S="(X)=21.83故标准差为v=---=0.51£(X)标准差系数为(3)以组中值代表该组的平均水平,并设下开口组的组距为10,上开口组的组距为20,则上网时间为5,20,40,60,80,100(小时):设上网时间为X,上网费用为Y,则由Z(%-xXv;-y)相关系数的计算公式:£(r)=20.79.Z)(y)=184.37,y.x,^=130125经计算得Z-1带入公式计算可得ア=0.728。随机抽取25个网络用户,得到他们的年龄数据如表3-14所示。表3-14

88単位:周岁19152925242321382218302019191623272234214120311723要求:(1)计算众数、中位数;(2)计算平均数和标准差;(3)计算偏态系数和峰态系数:(4)对网民年龄的分布特征进行综合分析。[南京大学2009研]解:(1)对表中数据按从小到大顺序排列:15161718191919202021222223232324242527293031343841由排序数据可知,年龄出现频数最多的是19和23,都出现3次,所以有两个众数,即&=19和&=23。=23_n+l_25+1_13由于中位数位置22,所以,勺“19+15+…+23600ヽ,x=——==——=24n2525(2)平均数:由平均数マ=24可得:

89'(19-24)2+(15-24)2+--+(17-24)2+(23-24)225-1=6.65SK吃(弔ーか25工(演-2ザ"(n-l)(n-2)?(25-1)(25-2)x6.65:(3)偏态系数:n(n+l)X(xt-x)4-XX(x,-x)2]:(n-l)(“_帅_2)(〃_3*25(25+1)2(ホー24)4-3叵(モー24)[:(25-1)(25-l)x(25-2)x(25-3)x6.654峰态系数:(4)对网民年龄的分布特征进行综合分析的结果如下:从众数、中位数和平均数来看,网民年龄在23〜24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,并且偏态系数大于1,所以偏斜程度很大。峰态系数为正值,所以为尖峰分布。ー种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):[深圳大学2006研]表3-15产品数量表

90方法A方法8方法C129125130126129126130127131126165130128129127127126128127128127127125128126128116125126原132125(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择ー种方法,你会作出怎样的选择?试说明理由。解:(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。(2)表3-16给出了用Excel计算ー些主要描述统计量。カ优Aカ一BルはC平均心閏6平均效12a.73平均故125.53中位数165屮位敷129中位政126众H164众教128众教126林鹿发2.13拝盘如1.75林准发277極融8候始7松屋12*小仙162,小值125M小依116■大依170■大他132•大依128表3-16描述统计量从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:

91Vr=—=_L-♦=0.014xB128.73匕=&=/ー=0.022苞!25.53方法A的离散系数最小,即离散程度最小,因此应选择方法A。

92第四章概率基础4.I复习笔记ー、随机现象与随机事件确定性现象与随机现象客观现象的分类:(1)确定性现象是指在一定条件下必然出现(或不出现)某种结果的现象。这类现象的共同特点是:在ー定条件下其结果可以预言。(2)随机现象是指在给定的条件下不能确切预言其结果的现象。这些现象的共同特点是:可以在相同条件下重复进行观察或试验,而每次观察或试验的结果不止ー个,且事先无法预言确切的结果。注意:在不确定的现象中,还有一类无法重复观察或试验的,称为不确定现象(本书将可重复的随机试验作为讨论重点)。2.随机事件对随机现象进行观测又称作随机试验,随机试验的每ー种结果或随机现象的每一种表现称作随机事件,简称为事件,一般用大写字母43,C,…(必要时加下标)来表示。(1)事件的种类①基本事件:是指ー个事件不能再被分解为两个或两个以上事件。基本事件是试验的最基本结果:每次试验必出现ー个基本事件,任何两个基本事件都不会同时出现。②复合事件:是指由两个或两个以上基本事件所组成的事件。③必然事件:是指每次试验都一定出现的事件,记作C。④不可能事件:是指任何一次试验都不可能出现的事件,记作。。(2)事件的关系和运算①包含:关系式,ソu3表示“若メ出现,则3也出现(反之则未必)”,称作“8包含,イ”,或“メ导致5”。

93②相等:关系式メ=3表示二事件イ和5要么都出现,要么都不出现,称作“事件,4等于事件B”或“事件メ和3等价”。③和(并):运算式X+B或HUB读作“メ加3,,,称作“ス与3的和(并)”,表示“メ和5至少出现ー个‘对于多个事件メ(i=l,2,...),汇4l)AT或?’表示“诸事件A,(i=l,2,...)中至少出现ー个”。④差:运算式メ〜B或イ、8读作“ソ减3”,称作“イ与B的差”,表示“事件イ出现但3不出现。”⑤交(积):运算式或ス。3,称作“イ与3的交(或积)”,表示“事件イ和B同时出现”。对于多个事件4(i=l,2,...),表示“诸事件4(1=1,2,...)同时出现”。⑥逆事件:ス={イ不出现},称作A的对立事件或逆事件。显然イ和ス互为对立事件,它们之间有下列关系:イ+コ=。,イDイ=。,コ=。ーイ。⑦不相容:若,が=0,即イ与B不可能同时出现,则称イ和3不相容。二、概率的性质及其计算概率的概念概率是事件イ在随机试验中出现可能性大小的数值度量,事件イ的概率以ア(川表示。2.随机事件的频率与概率的关系①频率:在相同条件下,重复进行同一随机试验,イ是这个试验的一个结果(事件)。设试验的次数为〃,在〃次重复试验中イ出现的次数为り(ム)=ム犯,则事件イ的频率为:②概率和频率的关系联系:通过大量观测,可以发现:随机试验的频率具有随试验次数增加而趋向稳定的性质,而频率的稳定值可以用来反映事件发生的可能性大小。因此,可以说频率的稳定值尸是事件イ发生的概率。即尸«)=尸。在实际应用中,常常通过做大量重复试验得到事件发生的频率,且以它作为概率的近似值或估计值。区别:虽然事件的频率与概率都是事件出现可能性大小的度量,但频率是试验值,依赖于

94试验的次数。即使试验次数相同,频率也可能取不同的值,频率具有随机性。概率则是独立于试验而客观存在的理论值,其大小取决于事件本身固有的规律性。2.概率的性质设事件ス的概率为ア(厶),其性质包括:⑴非负性,即0"(/ロ(2)规范性,即对于必然事件。,有尸(0=1ァ伝4)=之ア⑷V.ZJ7(3)对于随机事件41=12…),只要它们两两互不相容,则有4.概率的估计和计算(1)概率的直接计算①古典型概率如果ー项随机试验的全部基本事件总数有限,并且各基本事件出现的可能性都相同,事件p,一.嘶含基本事件的个数'-基本事件总数一A由若干基本事件所组成,则A的概率计算公式为:②几何型概率如果随机试验可模拟为向区域。上随机投点。并且满足以下两点:a.这个区域有明确界限,可以作长度、面积、体积的几何度量;b.随机点落在这个区域任何一点上的可能性都相同,也就是说,对于。中的某一区域g,随机点落在g内的概率与g的几何度量成正比,同它的形状以及在。中的位置无关。尸.)ー那几何度量。的几何度量对于这种随机试验,如果以,4表示(随机点落在区域g中}这ー事件,则其概率计算公式为:(2)用频率估计概率在最一般情况下,用事件在大量重复试验中出现的频率估计其概率的值。这样做的依据是概率的稳定性。(3)主观概率

95根据决策者综合各种信息,并依靠其经验和判断力对事件的概率作出估计,这种概率的估计值被称为主观概率。主观概率不假定现象的可重复性,甚至可以根据一次性试验作出判断。在对事件出现的真实可能性缺乏有效估计时,主观概率法也可作为解决问题的ー种方法。不过,目前对主观概率法的应用理论界尚存在争议。(4)概率的计算公式①概率的加法法则a.任意事件的加法规则。任意两个事件和(并)的概率,等于两事件概率的和再减去两事产(ム+3)=尸(,4)+尸(B)ー尸(メガ)件同时发生的概率。即P(.4+5+C)=P(J)+P(5)+P(C)-P(.13)-P(JC)-P(5C)+P(\-15C)b.不相容事件的加法规则。两个不相容事件,4与3的和(并)的概率,等于两事件概率的和。即②条件概率和乘法公式a.条件概率:设ス,3是任意两个事件,且尸(3)>°,则称为“在事件3发生的条件下,事件A发生的条件概率”,简称“メ关于3的条件概率”。b.乘法公式:设ス与3是任意两个事件,且产(厶)尸(8)>°,则P(\45)=P(5)P(J|5j尸(ー武)=尸(イ)尸(5⑷

96③全概率公式BbB2^5.=0.^(5;)>0(i=1,2,•••,«)设:…,"为”个互不相容事件,且戸,则任P(J)=yP(5.)P(;4|5.)ー事件ス的概率为、公’ビノ。④贝叶斯公式设坊,区,,纥为〃个互不相容事件,且£’〇A・岫)=ー-丨」=『__!—(i=l,X....n)11工产区)尸(ン氏)是任一事件,且ア⑷>°。则对任一瓦〇…⑼,有⑤事件的独立性a.统计相依的概念对于两个事件メ和3,假若事件B的发生会对事件メ发生的概率产生影响,即アひ四工尸(㈤,称事件イ与3之间统计相依。b.统计独立的概念假若事件3的发生并不影响事件イ发生的概率,称事件メ与B之间统计独立。在ス与3独立时显然有ア(邓)=尸(/)。c.事件独立性的定义设ス与3是任意两个事件,如果满足尸(カX「(⑷尸”),则称事件メ与3独立,否则称,4与3相依。&事件独立推广到〃个事件的情形在〃个事件中,如果其中任意ー个事件发生的概率不受其余〃T个事件发生与否的影响,那么就称这〃个事件相互独立。就三个事件来说,事件尸(,イ)=尸(イ)尸(3)独立,必须有P(BC)=P(B)P{C}

97尸(イC)=尸(4)尸(C)P(.4SC)=P(,4)P(5)P(C)e.相互独立与互不相容的区别:独立性是指两个事件的发生互不影响,互不相容是指两个事件不能同时发生。两个不相容事件一定是统计相依的,两个独立事件一定是相容的(除非其中有一个事件的概率为0)。三、随机变量及其分布随机变量的概念(1)随机变量的定义是指其取值带有随机性的变量。在给定的条件下,这种变量取何值事先不能确定,只能由随机试验的结果来定,并且随试验的结果而变。(2)随机变量的种类①离散型随机变量:随机变量的全体可能取值能够ーー列举出来②连续型随机变量:随机变量的全体可能取值不能ーー列举,其可能的取值在数轴上是连续的。2.随机变量的概率分布随机变量的一切可能值的集合(值域),及其相应的概率叫做随机变量的概率分布。随机变量的统计性质可由它的概率分布来表征。(1)离散型随机变量的分布离散型随机变量オ的每ー个可能的取值项和随机变量取该值的概率0(占)之间所确立的对应关系称作这个离散型随机变量的分布。尸(项)('=1,23…)称作随机变量p(h)と的士ア(%)=1X的概率分布或概率函数,它满足下面的关系:(2)连续型随机变量的分布

98连续型随机变量”的ー系列取值区间和随机变量在该区间取值的概率之间确立的对应关系,称作这个连续型随机变量的分布。连续型随机变量的分布可以用密度函数来描述,随机变量X的密度函数记作タへ)。密度函数满足下面两个基本性质:①P(x)20②匸p(x)厶=12.随机变量的数字特征(1)随机变量的数学期望①数学期望的概念随机变量x的数学期望是ア的一切可能值以相应的概率为权数的加权算术平均数。记作E(才)PlPlPl...Pk若x是连续型随机变量,其概率密度函数为"(X),则オ的数学期望定义为E(才)=「卬(x)女式中的定积分应绝对收敛。②数学期望的性质:性质1若c为常量,则有E(C)=C性质2石(*+。)=ど(め+C性质3E(CX}=CEiX')性质4若乂为随机变量,则有E(X±】’)=E(X)土石(り

99推广到“个随机变量和的情形:しー[リカI性质5若随机变量屿『独立,则有同ガ)=E(X)E(F)E(占)…E(K)推广到〃个独立随机变量情形:若スノ…”匕独立,有スス陷…Z)=E(%)注意:这里的随机变量独立,是说ー个随机变量取何值,不会影响另一个随机变量的分布规律。或者说(就离散型随机变量来说),是要求ズ的所有可能的取值与’的所有可能的取值两两配对独立。(2)随机变量的方差、标准差和变异系数①方差和标准差ア(£)=E[X-E(X)T=E(才)一团巧了随机变量オ的方差,记作口》),是オ与其数学期望的离差平方的数学期望。即称用而为オ的标准差。0(X)=t[x「E(X)]7若刀是离散型随机变量,则X的方差用下式计算:,(才)=「鼠-E(め),(xg若X是连续型随机变量,其概率密度函数为夕(刈,则オ的方差用下式计算。②方差的性质性质1若C为常量,则有ク(c)二°性质2『(x+c)=n©性质3/(5)=CMX)性质4若随机变量ス与Y独立,则有门オー"=/(X)+广(门Vz*:=£,(ム)推广到〃个独立随机变量的情形:若並,…,乜独立,有17リョ性质5若随机变量オ与】‘独立,则有ブ万ーり=/(丫)+厂(厂)

100③变异系数随机变量的变异系数是随机变量的标准差与数学期望的比率。随机变量X的变异系数写作四、几种常用的概率分布两点分布①定义如果随机变量X只取1和。两个值,取1的概率是P,取。的概率是1-P,我们称X服从两点分布或。/分布,ア是オ的参数。②两点分布的数字特征数学期望E(X)=P,方差ク(X)=P(1-P)2,二项分布①定义如果把一个贝努里试验在完全相同的条件下独立地重复〃次,称作〃重贝努里试验。〃重贝努里试验应符合下列三个条件:①每次试验只有“成功”和“失败”两种对立的结局;②各次试验“成功”的概率相同(都为P);③各次试验相互独立。以随机变量X表示〃重贝努里试验中“成功”的次数,它服从参数为50尸(》=4)=ぐザ(1ー「)1(左=0,レッ〃)的二项分布。二项分布的概率函数为其中,と是〃重贝努里试验中“成功”的次数。②二项分布的数字特征数学期望司オ)=ゆ,方差ク(ヌ)=ゆ(1-P)。3,超几何分布

101①定义如果有限总体单位数目为N,其中具有某种特征的单位数目为“,对这个总体进行〃次不还原简单随机抽样,用随机变量X表示样本中具有某种特征的单位的数目,则XP(X=无)=C:步(无=0,1,….min[〃,"})cx服从参数为(N』]》)的超几何分布。超几何分布的概率函数是其中,ん是样本中具有某种特征的单位的数目。②超几何分布的数字特征数学期望E(X)=〃P(这里,P=Mヽ),方差"©=叩"ー叫2.正态分布①定义令随机变量ズ是在ー个随机试验中被测量的结果,并且,决定这项试验结果的是大量偶然因素作用的总和,每个因素的单独作用相对均匀地小,那么,X的分布就近似于正态分布。正态分布的密度函数巧0②正态分布密度函数的两个参数正态分布的密度函数有两个参数:4和び、从密度函数的图形来说,4决定着曲线在横轴上的位置,以越大,图形位置越靠右;ザ决定着曲线的形状,标越大,图形越“矮胖’‘,如图4J所示。图4*1正态分布概率密度曲线中的参数

102③标准正态变量及其标准化的概念a.标准正态变量zz=0zt*=1N(0.1)标准正态变量是,的正态变量,通常记作。通常用Z来表示标准1£p(z)=-^e:(Y

103分布的第一自由度(分子自由度),エ称作F一分布的第二自由度(分母自由度)。②概率密度函数加/㈤ェfl概率密度函数的图形如图4・3。图中表示一族曲线,其形态随和的改变而不同。图4-3F-分布的概率密度函数曲线Uん工:)与り(カノ)的关系式是『“",月(カノ)。5.t一分布①定义设x是标准正态变量,y是自由度为レ的ズ变量,且x和f相互独立,则称随机变量t_X师所遵循的分布规律为t一分布。”称为它的自由度,记作’(レ)。②概率密度曲线概率密度函数的图形如图4-4。图中表示一族曲线,其形态随“的改变而不同。从图可以看到,t-分布类似于标准正态分布,其密度曲线是以纵坐标轴为对称轴的单峰曲线。当自由度“较小时,t一分布比标准正态分布分散些,图形的两尾高于正态分布而峰顶低于标准正态分布。随着レ的增大,t一分布越来越接近标准正态分布,至[]レ=エ时,t-分布完全变成了标准正态分布。

104图4-4t一分布的概率密度曲线

1054.2课后习题详解ー、判断分析题设イ、5、C表示三个随机事件,将下列事件用イ、B、C表示出来。(1)イ出现,B、C不出现:(2)イ、3都出现,而C不出现;(3)所有三个事件都出现;(4)三个事件中至少ー个出现;(5)三个事件中至少两个出现;(6)三个事件都不出现;(7)恰有一个事件出现。答:(1)疝モ;(2)-iSC.(3).吟(4)X+3+C;(5).13+BC+C4;(6)ABC;(7).4BC+ABC+ABC0以E表示随机试验,以Q表示E的基本事件空间。试描绘下列随机试验的基本事件空间和所列事件中所包含的基本事件。(1)E:对同一目标接连进行三次射击,并观察是否命中;考虑事件:イ={三次射击恰好命中一次},8={三次射击最多命中一次}。(2)£:同时掷两个骰子观察点数和;考虑事件:イ={点数之和为奇数}。答:(1)A=(仅命中第一次,仅命中第二次,仅命中第三次};B={三次射击命中0次,三次射击命中1次}(2)A={点数之和为1、3、5、7、9、11}抽查4件产品,设イ表示“至少有一件次品”,3表示“次品不少于两件“。问ス、B各表示什么事件?答:ス表示没有次品;3表示次品不多于一件。在图书馆按书号任选一本书,设イ表示“选的是数学书”,B表示“选的是中文版”,C表示“选的是1990年以后出版的”。问:(1)J5ざ表示什么事件?(2)CPI3表示什么意思?(3)若ス=8,是否意味着馆中所有数学书都不是中文版的?

106答:(1),がで=选的是中文版的、1990年以前出版的数学书。(1)CCI3=199()年以后出版的中文版的书。(3)不是。A=B意味着所有非数学书是中文版的。所有数学书可能有的是中文版的、有的是英文版的。二、计算题向三个相邻的军火库掷ー个炸弹。三个军火库之间有明显界限,一个炸弹不会同时炸中两个或两个以上的军火库,但ー个军火库爆炸必然连锁引起另外两个军火库爆炸。若投中第一军火库的概率是〇.025,投中第二军火库以及投中第三军火库的概率都是0.1。求军火库发生爆炸的概率。解:设メ、B、C分别表示炸弹炸中第一军火库、第二军火库、第三军火库这三个事件。于是,产(,4)=0.025,尸(8)=0.1,尸(C)=0.1。又以。表示军火库爆炸这ー事件,则有,D=A+B+Ca其中イ、B、C是互不相容事件(ー个炸弹不会同时炸中两个或两个以上军火库)。.P(D)=P(A)+P(B)+P(C)=0.025+0.1+0.1=0.225某厂产品中有4%的废品,100件合格品中有75件一等品。求任取一件产品是一等品的概率。P(C)=P(J)xP(5)=0.75x0.96=0.72解:/="合格品",8="一等品”,C="取一件产品是一等品”某种动物由出生能活到20岁的概率是0.8,由出生能活到25岁的概率是0.4。问现龄20岁的这种动物活到25岁的概率是多少?解:设ん="这种动物活到20岁"、B="这种动物活到25岁"。VBCAB=AB呐ッ"=组="=0.5.1尸(,4)P(A)0.8在记有1、2、3、4、5五个数字的卡片上,第一次任取ー个且不放回,第二次再在余下的四个数字中任取ー个。求:

107(1)(2)(3)解:(1)(2)(3)3-X53-X35;22345423410第一次取到奇数卡片的概率;第二次取到奇数卡片的概率;两次都取到奇数卡片的概率。两台车床加工同样的零件。第一台出现废品的概率是0.03,第二台出现废品的概率是0.02»加工出来的零件放在ー起,并且已知第一台加工的零件比第二台加工的零件多一倍。求任意取出的零件是合格品的概率。解:设及=(第一台车床的产品};员=(第二台车床的产品};,イ={零件是合格品}。则ア出|=ラ尸(生1=;尸(スロJ=1-0.03=0.9フ尸(ス氏)=1一0.02=0.98P(J)=P(51)P(j|51)+P(5;)P(J|5;)=yx0.97+1x0.98=0.973由全概率公式得:有两个口袋,甲袋中盛有2个白球1个黑球,乙袋中盛有1个白球2个黑球。由甲袋中任取一球放入乙袋,再从乙袋中取出ー球。问取得白球的概率是多少?解:“4="甲中取得是白球“N="甲中取得黑球"B=“乙中取得是白球”P⑻ノ⑷P(印)+叫川明滑x卜・由全概公式得:在第5题中,如果任意取出的零件是废品,求它属于第二台车床所加工零件的概率。解:设功=(第一台车床的产品};为={第二台车床的产品};イ={废品}。则尸(反)=:尸(%)=§尸(ス同)=093P(.4|5,)=0.02尸(黑レ尸氏)尸(邓:)叶'尸(イ)尸(即ア(ノ国)+尸(号)尸(イ|易)-xO.02231——加-X0.03+1x0,02

10823发报台分别以概率0.6及0.4发出信号“•”及“一”。由于通讯系统受到干扰,当发出信号“,’时,收报台以概率0.8及0.2收到信号“•”及“一”;当发出信号“一”时,收报台以概率0.9及0.1收到信号•“一”及“、求:(1)当收报台收到信号“•”时,发报台确实发出信号“•”的概率;(2)当收报台收到信号“一”时,发报台确实发出信号“一”的概率。解:(1)イ=“发出信号“,”;“发出信号・“一””。5=“收到信号“"’,C=“收到信号“一””ド(メ)=0.6尸(3卜)=0.8P(5p)=0.!尸(。ド)=0.2尸(eg)=0.9尸(B)=P(A)x尸(用イ)+尸(ス)x尸|B日卜0.6x0.8+0.4x0.1=0.52由全概率公式得:口ヰ)=箫=11由逆概公式得:12当收报台收到信号“•”时,发报台确实发出信号“•”的概率是百。P(C)=P(l)P(Cp)+P(J)P(C|j)=0.4x0.9+0.6x0.2=0.48(2)由全概公式得:由逆概公式得:

109尸|永|鬥!C|Pp)P(Cp)036•'==-o、P(C)P(C)0.48若该运动员在设某运动员投篮投中概率为0.3,试写出一次投篮投中次数的概率分布表。不变的条件下重复投篮5次,试写出投中次数的概率分布表。解:(1)一次投篮投中次数的概率分布表表4-2一次投篮投中次数的概率分布表表4-3重复投篮5次投中次数的概率分布表X=Xi012345P(X=Xi)0.168070.360150.308700.132300.028350.00243随机变量x服从标准正态分布N(0,1)〇查表计算:P(0.3(1.2)+¢(3)-1=0.8849+0.9987-1=0.8836随机变量x服从正态分布N(厂フ0,2822)。试计算:p(1400

1101600-17201400-1720P(1400l])=001;当/;=5/=6时尸(X<5)=l-O.O5=o%若随机变量ズ服从自由度为10的t-分布,求尸(*>3.169);若X服从自由度为5的t-尸(X<2.571)分布,求〇解.P(X>3.169)=0.005P(X<2.571)=1-0.01=0.99同时掷两颗骰子一次,求出现点数和的数学期望和方差。解:表4-4同时掷两颗骰子概率—234567891()1112X=n尸(宀)13636336436536636536436336236136E(X)=Z.杷,1,2.3.4,5_6o5rt4,.3,,2,-J=2x—+3x——+4x—+5x—+6x—+7x—+8x—+9x—+10x—+llx—+12x—3636363636363636363636252一==,'36

111P(X)=Z[かと(切ス=(2-7)x^-+(3-7)X—+(4-7)x^-+(5-7)X—+(6-7)x-^+(7-7)X—+(8-7)X-1-+36363636363636(9-7)x—+(10-7?x—+(ll-7?x—+(12-7Kx—'36363636=処=5.8333616.已知100个产品中有10个次品。现从中不放回简单随机抽取5次。求抽到次品数目的数学期望和方差。解:才=“抽到的次品数”。一次抽样,抽到次品的概率为ア(工)=ダ二°イ。E(X)=叩=0.5Var(X)«np(y-p)«5x0.1x0.9=0.45独立重复试验:X二以5,0.1)假设接受ー批产品时,用放回方式进行随机抽检,每次抽取1件,抽取次数是产品总数的一半。若不合格产品不超过2%,则接收。假设该批产品共100件,其中有5件不合格品,试计算该批产品经检验被接受的概率。解・ぐ〇.05〇(1-O95)50+くoo5i(i-o.o5)*=0.0769+0.2025=0.2794

112三、证明题如果事件a在ー次试验中发生的概率是p,不发生的概率是g,p+g="试证明在"次独立重复试验中该事件出现次数x的数学期望是ゆ,方差是叩。。E(X)={硏X=防=(ん(4ス〜”证:gi-Cに=X;rim/_示pq=ゆ・エ(^-7)pq”工(「二)pq''2(左一1)!(ねー无)广t?kTtor=ゆ・(ア+q广i=npメ1=np—e[x(x-i)]+ゆーガ,DQO=E(X3)-[E(X)]2=<¥(X-1)]+Eg-但(制『£伏ー2)[5ーOタqス阳ズー1)]=エ垓ー1).(今オ尸因Ik=〃("喚ザ)次二加一源—于是0(X)=n(n-Y)p2+np-n^p:=np-np2-npq随机变量…,匕独立,并且服从同一分布,数学期望为",方差〇<求这ね个随机变量的简单算术平均数ズ的数学期望和方差。1ヽ!_〉E(X)=—xwx/z=/zね公«证:ノ材Var[X]^Varツ气がリTX"8)=卜”宀く随机变量%,*ア…,%独立,并且服从同一分布,数学期望为“,方差为ザ。这〃个随机变量的简单算术平均数为ア。求工ーア的方差。

113iiE:D(Xl-X)=D(Xi—X^j)

1144.3考研真题与典型习题详解ー、选择题己知事件A发生的概率为P,事件A发生时事件B发生的概率为P,事件A不发生时事件B人、際P发生的概率为ラ‘则A和B中至少有一个发生的概率为()。[浙江工商大学2015研]t»«ーーC、P一夕D.イ【答案】B尸(3レイ)=ル9=【解近】依题意有,尸(ス)=ア,尸(⑷尸(川不=尸(3コ)一アび)一尸(./)一p「1ー尸(X)1-PG4)ラ,从而有ア(.4)=が,2〇A和B中至少有一个发生的概率产(duB)=尸(J)+尸(3)ー尸(,超)=p+-pz=—

115两个人轮流抛ー个骰子,约定谁先抛出6谁获胜,则后抛者获胜的概率为()。[中山大学2014研]A.1/2B.5/12C.6/11D.5/11【答案】D【解析】由于是轮流掷骰子,所以第一个人获胜的概率为レ、但丫丄伐丫1丄J雪1・彳66,第二个人获胜的概率为"'5/6A16,则有kカx+」x=lx=g厶=エ'6,解方程6,得11,则61I〇设随机变量X和Y的联合分布是二维正态分布,则X+Y()服从正态分布。[中国科学技术大学2013研]A.是B,不是C.不一定【答案】A【解析】随机变量X和1’的联合分布是二维正态分布,则可知X和F的边际分布为ー维的正态分布,由正态分布的可加性知,X+F服从正态分布。设随机事件4,4,4相互独立,且アし幻=】4](4)=円ヨ1=13,则ケU工「()〇[中国科学技术大学2013研]A.1/3B.2/3C.3/4D.11/12【答案】B

116【解析】111111一+ー—―X———X-334343PI^J-i]=尸(4)+尸(4)+尸(4)一ア(44)一尸(「.も)一尸(44)+ゝP产1444),由于随机事件4,4,4相互独立,则111112——x—+—x—x—=—334333o20台冰箱中16台~"级品、4台―1级品,在运输中损坏2台,损坏的是1台一级品和1台—・级品的概率为()。[四川大学2013研]A.0.3368B.0.0316C.D.巾11丄1丿,故概率为=0.3368。0.66320.9684【答案】A【解析】事件空间总个数为,该事件包含的基本事件个数为设某运动员投篮命中率为0.8,则其一次投篮投中的数学期望为()。[首都经济贸易大学2012研]A.0.16B.0.2C.D.0.8【答案】D【解析】记X为一次投篮投中的次数,则X的概率分布列为:0.20.8则该运动员ー次投篮投中的数学期望为E(X)=°x°2+1x0S=0.8。

117设A,B,C都是事件,通过事件运算得到A,B,C,A,B,で中某些事件的交及并的表达式,ス+ゑ+の表示()。[中山大学2012研]A.事件A,B,C中至少有一个发生B.事件A,B,C中至少有两个发生C.事件A,B,C中至少有一个不发生D.事件A,B,C中至少有两个不发生【答案】C【解析】事件A,B,C中至少有一个发生的表达式为:A+B+C;事件A,B,C中至少有两个发生的表达式为:.4B+BC+AC.事件A,B,C中至少有两个不发生的表达式为:J5+8C+HC;事件A,B,C中至少有一个不发生的表达式为:メ+3+C。If°121离散型随机变量号的分布列为1°ユa”,其中4b是未知数,如果已知自取1的概率和取2的概率相等,则。=()〇[安徽财经大学2012研]A.0.2B.0.3C.0.4D.0.5【答案】C【解析】由随机变量分布的性质可知,0.2+a+b=l,又因为a=b,所以a=i=0,40甲乙两人独立对同一个目标各射击一次,命中率分别是0.6和0.5,现已知目标被射中,则该目标是甲射中的概率为()。[浙江工商大学2012研]A.0.6b.n6_c.nD.0.75【答案】D

118【解析】记事件4a分别表示甲乙两人独立对同一目标击中,事件B为目标被击中。由于事件4与事件4是相互独立的,故有ア(ム&)=尸(4)尸(4)=05x06=03P(5)=P(AXU4)=尸(4)+尸(4)_尸(44)=0.6+06-0.3=0.8,尸(415)=PW)_P(4)_0.6.’P(B]P(B]0.8—设随机变量X~N*,2,),且ア(X>a)=尸(Xa)=尸(Xa)=0.5,即〇处在正态分布的中心位置,根据题干中的条件可知该分布关于4=3中心对称,所以。=3。将ー颗质地均匀的硬币先后抛掷3次,至少出现2次正面的概率是()。【中央财经大学2011研]A.1/4B.3/8C.1/2D.5/8【答案】C6ぜ+C1【解析】记x为抛掷3次硬币出现正面的次数,根据古典概率计算公式可知:设函数f(x)在区间(a,b)上等于0.4,在此区间之外等于〇,如果f(x)可以作为某连续型随机变量的密度函数,则区间(a,b)可以是()。【中央财经大学2011研]A.(0,0.5)

119A.(0.5,2.5)B.(1,2.5)C.(0,2.5)【答案】D「/(x)ctc=0.4c£r=0.4(i-a)=1【解析】根据概率密度函数的性质可知,解得,b-a=2.5,只有D项满足条件。/(X)=―设随机变量く的概率密度为"2病e4(70

120若事件A与B互不相容,下列命题正确的是()。[江苏大学2011研]A.A\jB=QB.A与B为对立事件C.スつ3D.スつア【答案】C【解析】事件A与B互不相容,则メ"5=。,スつ&ラつメ;イ与5为对立事件,则メ03=。且aU5=c设A,B是两事件,°<尸(㈤<1,尸(3)>0,p⑺|a)=P(BI工),则必有()。[江西财经大学2006研]A.P(AIB)=P(ス|B)B.P(AIB)#P(ス!B)C.P(AB)=P(A)P(B)D.P(AB)/P(A)P(B)【答案】C【解析】尸(BY)=产(必尸(⑷网’和鬻尸¢3)-PQ13)匚反ぶ尸(一18)一尸(J)尸(.")=尸(J)尸(3)-P(J)尸(・必)P(.1B)_P(g)-P(.18)已知P(B|A)=P(B|ス),即尸(⑷レア(④’则有:化简得PCAB)=P(A)P(B)〇设A和B是任意两个不相容的事件,并且P(A)ナ。,P(B)ナ〇,则下列结论中肯定正确的是()。A.N与ア相容B.ス与ア不相容C皿=尸(メ)尸(めDP(J-5)=P(^)【答案】D【解析】A和B是任意两个不相容的事件,则

121A、B两事件没有相同的样本点,但ス与ア不一定没有相同的样本点,即ス与B不一定相容,也不一定不相容;P(A)邦,P(B)邦,则P(A)P(B)#),而P(AB)=0,故P(AB),P(A)P(B);尸(メー3)=尸(.疝)=尸(d(C—B))=尸(X)ー尸(.15)=尸(d)处于正态分布概率密度函数与横轴之间并且大于均值部分的面积为()。A,大于0.5A.-0.5B.1C.0.5【答案】D【解析】对于正态分布的概率分布函数,当xVj!时,F(x)<0.5:当x=j!时,F(x)=0.5;当x>ド时,F(x)>0.5〇题中大于均值的面积S=1—F(卩)=1-0.5=0.5。现在有10张奖券,其中8张为2元,2张为5元,某人从中随机地无放回抽取3张,则此人得奖金额的期望是()。A.6B.7.8C.9D.12【答案】Bcf=2_【解析】设X为得奖金额,则当X=6时,P(X)=Go15;当x=9时,P(X)=CiC;7_C;C+1gづ;当x=12时,P(X)=G。=15,那么期望值为E(X)=下面关于n重贝努里试验的叙述中,错误的是()A,试验包含n个相同的试验B.每次试验成功的概率p都是相同的C.试验结果对应于ー个离散型随机变量D,在n次试验中,“成功”的次数对应ー个连续型随机变量【答案】D【解析】n重贝努力试验的特征:①试验包含n个相同的试验;②每次试验只有两

122个可能的结果:成功或失败;③出现成功的概率p对每一次实验都是相同的,失败的概率q也不变,且p+q=l;④试验是互相独立的;⑤试验结果对应于ー个离散型随机变量。二、简答题什么是小概率事件?它有什么实际的意义?[浙江工商大学2015研]答:(1)小概率事件的含义:在概率论中将概率很接近于。,即在大量重复试验中出现的频率非常低的事件称为小概率事件,一般多采用0.0卜0.05两个值即事件发生的概率在0.01以下或0.05以下的事件称为小概率事件。(2)小概率事件的实际意义:分析小概率事件有利于更好的利用它,控制其发生的条件,使它朝着我们所期望的方向发展,避免破坏性的小概率事件发生。正态分布的概率密度函数ハエ)有两个参数”和び,请结合函数”ス)的几何形状说明4和び的意义。[安徽财经大学2012研]答:正态分布的概率密度函数是ー个左右对称的钟形曲线,参数以是这个曲线的对称轴,是位置参数,决定了正态曲线的中心位置,并在处达到最大值,此时ん2m,同时4也是正态分布的数学期望:而参数び是形状参数,它的大小决定了曲线的陡峭或扁平程度,ぴ越小,则曲线的形状越陡峭,越集中在对称轴x=4的附近;び越大,曲线越扁平。这和ザ是正态分布的方差的直观意义一致。当〃=。。’=1时,称为标准正态分布,即为N(0」)。概率与频率有什么联系与区别?答:(1)概率与频率的区别:概念不同,适用场合也不同。概率是指随机事件发生的可能性,或称为几率,是对随机事件发生可能性的度量。频率是指n次重复试验中,某事件发生的次数占总次数的比例。(2)概率与频率的联系:当试验的次数n很大时,如果频率在某ー数值P附近摆动,而且随着试验次数n的不断增加,频率的摆动幅度越来越小,则称P为事件A发生的概率。或者说,当试验的次数n-8时,频率收敛于概率。两者的取值都在。〜1之间;概率之和等于1,频率之和也等于1。何谓全概率公式?何为贝叶斯定理?答:(1)全概率公式对于ー些比较复杂的事件,可先将复杂事件分解为ー些较简单的事件,再结合加法法则和乘法法则,计算出所要求的概率。设试验E的样本空间为S,B为E的事件,A,,A2,...,A“是ー个完备事件组(互斥事件),事件B仅当完备事件组Ai(i=l,2,...,n)发生时才能发生,且P(A,)>0,则:

123B=B(A1+A2+…+An)=BAi+BA?+…+P(B)=P(A.)-P(BIA.)+P(Az)P(B|A2)+...+P(A„)P(BIA„)=Vp(4),p(5|4)(2)贝叶斯定理设试验E的样本空间为S,B为E的事件,A,,A2,...,A.是一个完备事件组(互斥事件),事件B仅当完备事件组A,(i=1,2,...,n)发生时才能发生,且P(B)>0,P(A;)>0,则:RBI4)/ス)尸(514*(4)P(.4j5)=-ム)既ム)ド⑺>1I,C9=1,2,,,,9n二、计算题某学校的班车在路上所花的时间服从正态分布,且均值为40分钟,标准差为5分钟。班车每天7:10时出发,要求8:00之前到达另外一个校区。已知标准正态分布表:①①ロ)=0.8413,①,2)=0.9772。请计算:(1)班车迟到的概率。(2)该班车10月份共发车16次,计算该班车10月份从不迟到的概率。[中央财经大学2014研]解:(1)记X为班车在路上所花的时间,已知刀一"门。:“),p(^>50)=i-p(Ar<50)=i-p;50~40;I55丿=1-¢(2)=1-0.9772=0.0228

124(2)由(1),该班车不迟到的概率为1-0.0228=0.9772«共发车16次,则从不迟到的概率为0.9772號。甲、乙两个异地汽车经销商均出售某种汽车。根据记录,甲经销商该型号汽车的百辆月销量从参数为1的泊松分布,乙经销商该型号汽车的百辆月销量服从参数为2的泊松分布。两个经销商在同一个仓库提货。问:该仓库每月应该准备多少辆汽车才能以不小于90%的概率保证顾客的需求。[四川大学2013研]表4-5泊松分布表,・、AXtr1IT(W)XX=1X=2入=3X=410.630.860.940.9820.260.590.800.9130.080.320.580.7640.020.140.350.575O.(X)40.050.180.3760.00060.010.080.21解:设X、Y分别表示甲乙两个经销商的销售数量,a表示满足要求时所需的库存量。则依P(X+Y>a)=lー尸(a)<10%题意有X二尸⑴ス、尸(2),尸(X+丫ヱ。)290%,即由泊松分布的可加性知:X+Y〜尸(3),查泊松分布表可知,服从参数为3的泊松分布当x=6时,l-F(x-l)<10Q。,故库存量为a=x-l=5时满足要求。:已知随机变量Y的概率密度为:

125/(>')=,0,y<00.25,0’>2时,レ1012ry00,y<0F(y)=-0.25y,0

126解:设随机变量X为10个电阻器中不合格的个数,则其中有两个不合格的概率为:(D尸(才«2)-C初/Yx0.)x0.9s-0.1937/ユグ1FX〇"P(^=2)»±-^-=.!—1-=0.18392!2!(2)泊松参数ス=+=10x0.1=1,并将其带入泊松分布公式得:

127第五章抽样分布与参数估计5.I复习笔记ー、抽样的基本概念与数学原理有关抽样的基本概念统计推断是在对所要研究的总体进行概率抽样的基础上,利用有关的抽样分布,根据样本数据去估计或检验总体的数量特征。(1)概率抽样的基本概念①样本容量样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用〃表示,它表明一个样本中所包含的单位数。一般地,”230的样本称为大样本,“<30的样本称为小样本。②样本个数样本个数又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多少与抽样方法有关。③总体参数总体分布的数量特征就是总体的参数,也是抽样统计推断的对象。常见的总体参数有:总体的平均指标,总体成数(比率)指标,总体分布的方差、标准差等。总体成数(也称总体比率)指标则是指总体中具有某种性质的单位数目在总体中所占的比重,它反映了总体的结构特征。④样本统计量与总体参数相对应的是样本统计量。由于样本统计量是样本的ー个函数,因此,它们是随以上式中,ア是样本平均数,P是样本比率,S:与S分别表示样本的方差与标准差。〃是样本容量,均是样本中具有某种性质的单位数目,ア是在分组样本资料下的权数。ェX:,丫=工机变量。常见的样本统计量有“Z(八©广工Xf尸=ヨs2=——正一x“一七Z/-1丿,S=が。

128(2)概率抽样及其组织形式①概率抽样的概念概率抽样,就是要求对总体的每一次观察(每一次抽取)都是一次随机试验,并且有和总体相同的分布。②概率抽样的组织形式抽样的组织形式主要有:简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样等。(3)放回抽样与不放回抽样当所研究的总体为有限总体时,简单抽样又分为放回抽样与不放回抽样。①放回抽样放回抽样的具体做法是:从总体中抽出ー个样本单位,记录其标志值后,又将其放回总体中继续参加下ー轮单位的抽取。放回抽样具有如下特点:a."个单位的样本是由〃次试验的结果构成的;b.每次试验是独立的,即其试验的结果与前次、后次的结果无关;c.每次试验是在相同条件下进行的,每个单位在多次试验中选中的机会(概率)是相同的。②不放回抽样不放回抽样的具体做法是:每次从总体抽取ー个单位,记录其标志值后不放回原总体,不参加下ー轮抽样,下一次继续从总体中余下的单位中抽取。不放回抽样具有如下特点:a.”个单位的样本由〃次试验结果构成,但由于每次抽出不放回,所以实质上相当于从总体中同时抽取〃个样本单位;b.每次试验结果不是独立的,上次中选情况影响下次抽选结果;c.每个单位在多次(轮)试验中中选的机会是不等的。(4)抽样分布从总体中可以随机地抽取许多样本,由每ー个样本都可以计算样本统计量的观测值,所有可能的样本观测值及其所对应的概率便是抽样分布。2.大数定理与中心极限定理(1)大数定理①定义

129独立同分布的随机变量メ,エ「.、看…,并且有数学期望七(乂)=〃及方差产(ム)b(i=L2,…)。则对任意的正数の有limp丿—VX-H<£}一I”占.ノ由于从总体中抽出的样本是独立且与总体同分布的,因此,当样本容量充分大时,样本平均与总体平均之间的误差可以有很大的把握被控制在任意给定的要求之内,这就是人们用样本平均估计总体平均的理论根据。②贝努里大数定理设阳是〃次试验中事件メ发生的次数,。是事件,发生的概率,则对于任意小的正数limp£,有(2)正态分布的再生定理如果变量X服从正态分布,总体的平均数是4,标准差是ぴ,从这个总体中抽出ー个容量是”的样本,则样本平均数ア也服从正态分布,其平均数日“)仍为其标准差为ル«。(3)中心极限定理①样本平均数的中心极限定理如果变量x的分布具有期望值”和标准差び,从这个总体抽取容量为〃的样本,则当〃趋于无穷大时,样本平均数万近似服从正态分布,其平均数々マ)仍为以,其标准差为びホ.②样本比率的中心极限定理从任ー总体比率为タ、方差为〇。ー〇)的(0」)分布总体中,抽取容量为“的样本,其样本比率p的分布会随着〃的增大而趋近于平均数为タ,标准差为‘而⑶"的正态分布。二、抽样分布样本平均数的抽样分布(1)样本平均数的期望值与方差①放回抽样的情况设从总体中抽出的样本为る孙…它们是相互独立的,并且与总体服从同一分布。设总体均值为",方差为

130び,则样本平均数的期望值与方差分别为国"六“,%n②不放回抽样的情况样本平均数的期望值同样等于总体的期望侑.。而样本平均数的标准差为4,KNー〃]ヽVlNTj,其中N为总体单位数。与放回抽样相比,这里多了一个爪、一1丿\',这个系数称为不放回抽样的修正系数(2)样本平均数的分布规律当总体x服从正态分布时,根据正态分布的再生定理,样本平均数服从正态分布,即万ニn307R。当总体不服从正态分布时,根据中心极限定理,只要样本容量〃足够大,样本平均数ア仍近似地服从正态分布,ザ/")。2.样本比率的抽样分布(1)样本比率的期望值与方差设随机变量x服从两点分布,其总体平均数(总体比率)为〃,总体方差ビ二"(】一°)〇对其进行n次独立重复观测得到下列样本:(冷セ,…,X")其中,观测结果为“成功”的次数是尸=空样本中“成功”的次数所占比率定义作样本比率P,且有n。则

131M(i-P)在不放回抽样条件下,有关结论与样本平均数相类似,即石(尸)二°,5一Fm一ホ立ア万丿。(2)样本比率的分布规律中心极限定理表明,当“充分大时,样本比率近似服从正态分布,P。ーP)]ゝ〃ユ这里大样本的条件是:"〇和"〇ー〇)都要大于等于5。实际工作中,当O.lWpWO.9,〃符合表5-1要求的大小时,就可以认为P近似服从正态分布。总体与《(P0.500.450.400.350.300.25a200.150.100.500.550.600.65o.7い0.750.800.850.90样本ft至少为It3637334043485771100表5-1用正态分布来近似时对样本量的要求(3)样本方差的抽样分布(«—1)5*来自正态总体的样本容量为〃的简单随机样本,统计量グ服从自由度为("ー1)的デ分布,即~/("-I),(n-l)S2(7*Z=~~~7—三、参数估计参数估计概述(1)参数估计的定义与种类参数估计,是指用样本统计量去估计总体的未知参数(或参数的函数)。参数估计有两种基本形式:点估计和区间估计。(2)点估计点估计,主要有矩估计法和最大似然估计法。设有随机样本(爲区」'X"),构造随机样本的ー个适当函数J"(冷も…,修)作为对8的估计。这时,把7(甬,も,…,X")称作©的估计量,记作8=7(孙セ,…,$)。

132(3)估计量的优良标准点估计的优良性包括以下四条标准:①无偏性无偏性是指估计量抽样分布的数学期望等于被估计的总体参数,即有可の②有效性又称最小方差性假定有两个用于估计总体参数的无偏估计量,分别用友和瓦表示,它们的抽样分布的方差分别用和外"」表示,瓦的方差小于瓦的方差,即。幻<必必レ就称瓦是比あ更有效的ー个估计量。③一致性一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性越来越小,接近于〇〇用公式表示就是illI,,式中£为ー任意小的数。④充分性估计量タ包含了样本中关于6的全部信息。(4)区间估计与估计的精度和可靠性①区间估计的概念区间估计,实质上是用两个互相联系的样本统计量给出タ的区间。即以司和タ分别作为总体参数タ区间估计的下限与上限,同时要求该区间将タ包含在内的概率应达到一定的程度。即尸(仇""ル〜,式中被4和巴框定的区间叫做置信区间。应ー3=△叫做抽样极限误差,它可以反映抽样估计误差的最大范围。把置信区间能够包含,的概率叫做置信度,即式中的「a。②估计的精度和可靠性参数的区间估计满足以下两个要求:a.估计的精度要求精度要求就是估计误差必须控制在一定的范围内。b.可靠性要求可靠性是指估计结果正确的概率保证,可用置信度来反映。2.总体均值的估计设随机变量メ〜Aユルザ),(用,乂,…,%)是取自X的简单随机样本。则有各个

133%(i=L2L,〃)独立,并且与オ有相同的分布,即正二一、‘(ルb)。(1)总体方差メ已知的情形①点估计②区间估计7X-flZ=将ア进行标准化后得到火,显然Z是标准正态变量(如图5-1),在图5-1的两个尾部各取面积a/2,临界值分别为ーz*和+z*,则有尸(マリ

134,抽样极限误差为:总体均值的置信度为l-a的区间估计为:白々吋(2)总体方差び未知的情形—1ねM=X=-£X,nz-1①点估计②区间估计由于总体方差び未知,因此,需要用总体方差的无偏估计量ア来代替び。则有ヽ,エ)作不等式的等价变换后得到:尸(X-0(〃T)S]<〃<マ+%式”-1)5不|=1_&〇a.放回抽样的场合5S由于、因此总体均值的置信度为l-a的区间估计为:"土‘卬忑白川,!_抽样极限误差为:ゆ赤。b.不放回抽样的场合s_=ド,ア]由于因此总体均值的置信度为l-a的区间估计为:AS]N-n抽样极限误差为:一‘ヰ五]かー13.总体比率的估计(1)点估计(2)区间估计类似于总体均值的区间估计,总体比率的区间估计是产土z*%,式中的样本比率标准差在放回抽样条件下是

1350〇=BEZ).巨?V”。在不放回抽样的条件下是‘v«v.v-i3.总体方差的估计d3=s2=—y(A;-jrーダ「丿(1)点估计(2)区间估计(n-l)£由于び2'ノ,在自由度为〃ー1的Z分布的两个尾部各自截取面积a/2,得到两个尾部临界值に:("ー】)和たし如图5-2所示,于是得到:D(〃T)S,H(M-l)S2),!”叽(〃ーD.“べ〃ーn丿,因此总体方差的置信度1-a的置信区间为.(w-l)S:(n-l)S:ヽ[心(〃ー1)‘比—ノ

136图5-2Z分布的双侧取值四、样本容量的确定问题的提出通过增加样本容量〃有可能降低样本平均数的标准差,从而实现既保证一定的估计精度,又具有较高的置信度的目的。但此时需要考虑在给定的置信度与极限误差的前提下,样本容量〃究竟取多大合适?这就是样本容量的确定问题。2.估计总体均值时样本容量的确定(1)总体方差已知,放回抽样A=Zaf2n=ヰへ这时有G»平方后得到A-(2)总体方差已知,不放回抽样/b这时有一"ミホ、礼平方后得到ーVA'+z[b由以上式子,可得出以下几点结论:①在保证精度和可靠性的前提下,总体方差越大,必要的样本容量n越大。即必要样本容量n与总体方差成正比。②必要的样本容量n与允许的极限误差△成反比。即在给定的置信水平下,允许误差越大,样本容量就可以越小;允许误差越小,样本容量就必须加大。③必要的样本容量n与可靠性成正比。也就是说,我们要求的可靠程度越高,样本容量就应该越大。3.估计总体比率时样本容量的确定

137采用与上述推导估计总体均值的样本容量相类似的方式,可以推导出以下公式:zス尸。一尸)(1)放回抽样呪ア(1ーア)NAj+zスア(1ー尸)(2)不放回抽样2.使用上述公式应注意的问题(1)计算样本容量时,总体的方差与成数常常是未知的,这时可用有关资料替代:①用历史资料已有的方差与成数代替;②在进行正式抽样调査前进行几次试验性调査,用试验中方差的最大值代替总体方差;③比率方差在完全缺乏资料的情况下,就用比率方差的最大可能值。.25代替。(2)如果进行一次抽样调查,需要同时估计总体均值与比率,可用上面的公式同时计算出两个样本容量,取其中较大的结果,同时满足两方面的需要。(3)上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如,计算得到〃=5693,那么,样本容量取57,而不是56。五、Excel在参数估计中的应用在Excel中,主要是使用公式与函数实现区间估计的有关计算,涉及的函数主要有:平均数函数AVERAGE,求样本容量的函数COUNT,求样本标准差的函数STDEV,求平方根的函数SQRT,求T分布或标准正态分布下临界值的函数TINV、NORMSINV。使用这些函数,可以构造出ー个专门用于实现区间估计的通用工作表。表5-2

138佔计対象估计M区间估计总体均值ム0X•ラ七X,1①总体力差巳知:ス土。r?Vn②总体方足未短:"土,•メー‘三总体比率0=Pエ也rnp±w叩总体方差ポーザNナ£(X,-X〉2/(w-ds8<»-ns>\(る注:该表中只列出放回抽样场合的估计公式,不放回抽样场合,均值和比率只是对样本统计量的标准差加以修正,即乘以修正系数。

1395.2课后习题详解ー、选择题(可选多项)以下属于概率抽样的有()。A.网民自由参加的网上调查B.体育彩票摇奖C.按随机原则组织的农产量调查D.街头随意的采访【答案】BC【解析】概率抽样,又称随机抽样,是遵循随机原则进行的抽样,总体中每一个单位都有一定的机会被选入样本。只有概率抽样,才能进行科学的统计推断。方便抽样是指调査过程中由调査员依据方便的原则,自行确定入抽样本的单位。由此可知A、D项都是方便抽样,属于非概率抽样。样本统计量的标准差与抽样极限误差间的关系是()。A.样本统计量的标准差大于极限误差B,样本统计量的标准差等于极限误差C.样本统计量的标准差小于极限误差D.样本统计量的标准差可能大于、等于或小于极限误差【答案】D【解析】设E代表抽样极限误差,则与估计误差之间的关系为:E〇一・«。由此可知样本统计量的标准差可能大于、等于或小于极限误差。在其他条件不变的情况下,如果重复抽样的极限误差缩小为原来的二分之一,则样本容量()。A.扩大为原来的4倍B.扩大为原来的2倍C.缩小为原来的二分之ー

140D.缩小为原来的四分之ー【答案】A【解析】E=gz平«,根据公式可知,如果极限误差缩小为原来的二分之一,则在其他条件不变的情况下,样本容量扩大为原来的4倍。当样本单位数充分大时,样本估计量充分地靠近总体指标的可能性趋于1,称为抽样估计的()。A,无偏性B.一致性C,有效性D,充分性【答案】B【解析】一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性一呻“トジ1越来越小,接近于〇。用公式表示就是公式中,£为一任意小的数。上式说明,当〃充分大时,タ与9之问的偏差,可以有很大的把握被控制在任意给定的范围之内。当〃趋于无穷大时,估计量依概率收敛于タ。抽样估计的误差()。A,是不可避免要产生的B.是可以通过改进调查方法消除的C,是可以事先计算的D,只有调查结束之后才能计算【答案】AC【解析】抽样误差是由于抽样的随机性引起的样本结果与总体之间的误差。抽样误差是一种随机性误差,只存在概率抽样中,在概率抽样中,抽样误差是不可避免的。但是,用大数定律的数学公式,是可以事先计算的。

141二、计算题

142根据长期实验,飞机的最大飞行速度服从正态分布。现对某新型飞机进行了15次试飞,422.2417.2418.7428.2431.5413.5425.6438.3441.3425.8434.0423.0423.1412.3420.3测得各次试飞时的最大飞行速度(单位:米/秒)为试对该飞机最大飞行速度的数学期望值进行区间估计(置信概率0.95)。解:由于总体服从正太分布,〃=15,小样本,0未知。X±ta:(n-lマーロ构造统计量忑服从,(“D,则置信区间为:“一而ヽ,4典=2.1916样本平均数ア=425,样本方差S:i=S'=72.049,&=8.488,忑=イ道,一(15-1)=2.]448,ム=赤=2.1448x2.1916=4.7005所求”的置信区间为:425-4.70<^<425+4.70,即(420.30,429.70)〇自动车床加工某种零件,零件的长度服从正态分布。现在加工过程中抽取16件,测得长12.1612.0312.0112.0112.0312.0612.1412.1212.0112.2812.0912.0612.1312.0712.1112.08度值(单位:毫米)为试对该车床加工该种零件长度值的数学期望进行区间估计(置信概率0.95)〇解:由于总体服从正太分布,n=16,小样本,0未知。X-n构造的统计量ぶ服从‘("T),则置信区间为:样本均值ア=12.09,样本标准差S;lS%=0.005,$=0.0707SSx=y/»=0,0707Z屈=0,0177,f0025(15)=2-131△=、ー^=0.0177x2.131=0.038置信区间为:(12.09-0.038,12.09+0.038),即M952,12.128)。

143用同样方式掷某骰子6(X)次,各种点数出现频数如表5-3所示。点数1234s6合_计ー出现蟆敢601001508090120600表5-3试对一次投掷中发生1点的概率进行区间估计(置信概率0.95)。解:n=600,p=0.1,ゆ=60>5,可以认为总体为大样本,同时随机变量服从二项分布。a=0.05,Za/1=Zqb5=L96p-Tt下〇)构造统计量:Vヰ近似服从正态分布,则置信区间为:A=1.96x/0.lx0.94600=0.0122x1.96=0.024因此,一次投掷中发生1点的概率的置信区间为(0.076,0.124)〇若在上述第2题中,零件长度的技术标准为12.10毫米,公差范围规定为(12.10土0.05)毫米。试根据样本数据对该车床加工该种零件发生长度不合格的概率进行区间估计(置信概率0.95)〇解:根据题意,零件长度的技术标准为12.10毫米,公差范围规定为(12.1010.05)可知抽取的样本中不合格的零件长度件数有7个,不合格率「=7/16。由于〃=16为小样本,故采用,统计量。则该车床加工该种零件发生长度不合格的概率置信区间为:

144P土如式…代入数据得置信区间为:(0*75±0.2643),即(0.173207018)。某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。他们从某地区已购买了微波炉的2200个居民户中用简单随机不还原抽样方法以户为单位抽取了30户,询问每户ー个30045090050700400520600340280380800750550201100440460580650430460450400360370560610710200月中使用微波炉的时间。调查结果依次为(单位:分钟)试估计该地区已购买了微波炉的居民户平均ー户ー个月使用微波炉的时间。yV=14820y=8858600解:根据已知条件可以计算得:占"’,ルー1ラ—估计量""z"’=30xl4820=494(分钟)I")=,(y)=—(1-—)=丄ーハー~([--)=1743.1653〃.V30292200估计量的估计方差153752029=53017.93-——x(8858600-30x494*1得S=230.26

145某大学有本科学生4000名,从中用简单随机抽样方法抽出80人,询问每个人是否有上因特网经历。调査结果为,其中有8人无此经历。试估计全校本科学生中无上网经历的学生所占比率。解:已知:〃=80,为大样本,故采用z统计量。P=01,a=0.05,z,/:=196V80,则置信区间为:ダ=ム,即(0.0343,0.1657)〇全校本科学生中无上网经历的学生所占比率的区间估计为:(0.0343,0.1657)某中学老师想要考察该校学生英语考试成绩的离散程度,先随机抽取了41位考生,并求出他们成绩的标准差S=12,设全校学生英语成绩服从正态分布。试根据上述资料,对全校学生英语考试成绩的离散程度即总体方差进行置信度为95%的区间估计。解:5-l)S:(n-l)S:751n-b,ソ2Xa/1Zl-a/2_40xi2240x12?一;59.342'24.433=(97.064.235.747)%ダ5A=24.433,点〇"セ=59.342,置信度为0.95的置信区间为:某城市有非农业居民210万户,从中用简单随机抽样方法抽取出623户调查他们进行住宅装修的意向。调查结果表明,其中有350户已经装修完毕,近期不再有新的装修意向;有78户未装修也不打算装修;其余的有近期装修的意向。试估计该城市非农业居民中打算在近期进行住宅装修的居民户数。解:设该城市非农业居民中打算在近期进行住宅装修的居民户数为x。由题意知:调查的623户中有623-350-78户有装修意向。x_623-350-782100000623则解得x=657303所以该城市非农业居民中打算在近期进行住宅装修的居民户数为657303。ー个市场分析人员想了解某一地区看过某ー电视广告的家庭所占的比率。该地区共有居民1500户,分析人员希望以95%的置信度对总体比率进行估计,并要求估计的误差不超过5个百分点。另外,根据先前所做的一个调査,有25%的家庭看过该广告。试根据上述资料,计算要进行总体比率的区间估计,应当抽取的样本单位数。

146ヽ,ー尸0ーア)_1500xL96Ao.25x(1-0.25)NA/+z%;ア。ー尸)1500x0.05:+1,96:x0.25x(l-0.25)解:由题意知=241.695应抽取242户进行调查。

1475.3考研真题与典型习题详解ー、单项选择题ア为样本均值,则ゴ设Xi,X2,…,X”为来自正态分布・ルメI的样本,其中戸为已知,的最大似然估计为()。[中山大学2015研]A.济可ローエ匹ー刈B.謂J「笠図ー”C.”占【答案】C£(ゴ)=口ア-0毋【解析】似然函数为:£(七ーが(2がザ对数似然函数为:«,0こ(演ッ)Z«1对对数似然函数求导得:一・ラ纟(/一“二°所以,び的极大似然估计为:设随机变量X和丫独立同分布,其分布为正态分布-『ルび),则(X+F-プ

148分布为()。[中国科学技术大学2013研]A.自由度为1,1的F分布B,自由度1,2的F分布C.自由度为2,1的F分布D,自由度2,2的F分布【答案】A【解析】随机变量X和丫独立同分布,X4ユザレ】7い。、则有X+F-2ル〜N(0,2ゴ)xt~"(o,2吸即(&,〜・⑴,(笠〜ガ⑴,因此(X+y-2〃),(XT『-F(l.l)设岗,厶…K来自总体“("バL且相互独立,则随机变量デる氏ー“且デ(〃ー1)服从的分布是()。(西南大学2012研]BハエJC.必",心)D.デ(〃)【答案】D【解析】设%,冬,…,凡・是来自总体"(以び)的样本,则有0〜AI")

149Z(1)rry,オトふ…名是相互独立的,—Z(正ー〃),〜ガ(〃)则随机变量。tr'已知总体的均值为60,标准差为10,从该总体中随机抽取样本量为100的样本,则样本均值的数学期望和方差分别为()。【武汉大学2012研]A.60,1B.6,10C.60,0.1D.6,1【答案】A【解析】记总体为X,其均值为"=60,标准差为c=10,设ム…,正8,为从总体中抽取的简单随机样本,则16566日お=4荻さセ=旃41乂=丽②リ/。样本均值的方差为二-xiocひ蜀」Rr=J-w=110000100100考虑总体均值的95.44%置信区间,已知总体服从正态分布且标准差为10;要使得到的置信区间的半径不超过1,需要的最小样本容量为()。[中山大学2012研、2011研]A.100B.400C.900D.16(X)【答案】Bスヌダユ0x10父【解析】置信区间半径=アあ解得“240〇。当。未知时,正态总体均值〃的置信度为1ーひ的置信区间的长度为()。[浙江工商大学2012研]A.丁し(かテしST)B.5T

150テz.A.52B.2』-l)【答案】B【解析】当び未知时,正态总体均值”的检验采用,统计量,在显著性水平a下的置信区间为::«,所以置信区间的长度为«丫〇95%的置信水平是指()〇[江苏大学2012研、中央财经大学2011研]A.总体参数落在ー个特定的样本所构造的区间内的概率为95%B.总体参数落在ー个特定的样本所构造的区间内的概率为5%C.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为95%D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为5%【答案】C【解析】置信水平95%不是用来描述某个特定的区间包含总体参数真值可能性的,而是针对随机区间而言的ー个特定的区间“总是包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题,如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。考虑总体均值的95.44%置信区间,已知总体服从正态分布且标准差为10;要使得到的置信区间的半径不超过1,需要的最小样本容量为()。[中山大学2012研、2011研]A.100B.400C.900D.1600【答案】Bz.必_2.0x10f1【解析】置信区间半径=6«,解得〃240〇。以下关于参数和统计量的说法正确的是()。[中央财经大学2011研]A.总体参数是随机变量B,样本统计量都是总体参数的无偏估计量C.对ー个总体参数进行估计时,统计量的表达式是惟ー的D.样本统计量是随机变量

151【答案】D【解析】参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值,研究者所关心的参数通常有总体平均数、总体标准差、总体比例等,由于总体数据通常是不知道的,所以参数是ー个未知的常数。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数,是随机变X,,X“为独立同分布的随机样本,设统计量T(Xi,X2,…,X.)为ド=E(X)的无偏估计量。下面哪项指标小,表示用该统计量估计均值卩的可靠性好?()[中山大学2011研]A.Var[T(Xi,X2”..X.)]B.E[T(Xi,X2,...X„)]C.Var(X)D.max{X।,X?,...Xn}-min{Xi,X?,...Xn}【答案】A【解析】可靠性即指有效性,有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。设え%都是®的无偏估计量,且纤凤生e。,则称可比%更有效。故选用统计量T(Xi,X、…,X.)的方差。】已知某工厂生产的某零件的平均厚度是2厘米,标准差是0.25厘米。如果已知该厂生产的零件厚度为正态分布,可以判断厚度在1.5厘米到2.5厘米之间的零件大约占()。[浙江工商大学2011研]A.95%B.89%C.68%D.99%【答案】A【解析】根据3c原则,当ー组数据对称分布时,经验法则表明:约有68%的数据在平均数±1个标准差的范围之内;约有95%的数据在平均数±2个标准差的范围之内;约有99%的数据在平均数土3个标准差的范围之内。设总体オ〜デ(〃),メ、区、…、匕是样本,ア

152是样本均值,则()。[江西财经大学2007研】AE(乃=スハ(乃=2〇ど(乃=。(乃=2〃CE⑶=L。(乃=2E⑶=士.£>(©=”D.n【答案】A【解析】总体“〜デ⑺,则总体的均值和方差分别为;片n,g2n。所以E(ゐ=ji=n,。(め=ct2/n=2n/n=2。当抽样单位数增加3倍时,随机重复抽样平均误差比原来()。[首都经济贸易大学2007研]A.减少1/2B.增加1/2C.减少1/3D.增加1/3【答案】A【解析】在重复抽样条件下,样本均值的标准差(抽样平均误差)为总体标准差aaa1,——_而y/4n2ロ2的1/亚即ケブ当抽样单位数增加3倍时,即“'=4",则:14.在进行区间估计时()。[西安交大2007研]A.置信概率越小,相应的置信区间也越小B.置信概率越小,相应的置信区间越大C.置信概率越大,相应的置信区间越小

153D,置信概率的大小不影响置信区间的大小【答案】Aa【解析】置信区间的宽度为ハム或2S…3,则在其他条件不变的情况下,置信概率l-a越小,则zハ或:ハ越小,所以相应的置信区间也越小。15.设随机变量スニ,(〃),其中,»>1,令r=J_X,,则()。[中南财经政法大学2006研]A.Y~x2(n-1)B.丫〜y2(n)C.Y~F(1,n)D.Y-F(n,1)【答案】D【解析】因为随机变量X〜t(n),所以令,则有メ〜N(0,1),F_と_冬ケエ〜デ(〃),且两个变量相互独立。进而可知,X:X:服从自由度为(n,1)的F分布。设随机变量X和Y都服从标准正态分布,则()。[东北财经大学2005研,华中科技大学2005研,中山大学2015研]a.x+y服从正态分布B.ボ+び服从ガ分布C.ヌ2和尸都服从ブ分布D,ヘリ行服从ア分布【答案】C【解析】ABD三项在这两个随机变量是相互独立的情况下オ成立。满足下面()条件时,可以认为抽样成数的概率分布近似正态分布。A.n>30,np>5,nq>5B.n>30»np<5,nq<5C.n>30,np>5,nq<5

154D.吟30,np<5,nq>5【答案】A【解析】对于总体比例的估计,确定样本量是否足够大的一般经验规则是:区间P"GQ_P)‘中不包含〇或1,或者要求npN5,nq>5o样本均值ア是总体均值,的无偏估计的条件是()。A,样本容量必须充分大B.总体必须服从正态分布C.样本必须是随机抽取的D.总体方差必须已知【答案】C【解析】E(X)=£[-(乂+占+・“+X")]=_[E(X)+E(X2)+…+E(Z)]=""+い法正nn,故可知样本均值刀是总体均值以的无偏估计的条件是样本必须是随机抽取的。二、简答题给出t分布的定义,计算t的期望与方差,并回答当自由度趋向无穷时极限分布是什么。[华东师范大学2014研]答:(1)t分布的定义如下:t=_X_设随机变量X〜N(°」),F〜デ(〃),且X与】‘独立,则イ./〃,其分布称为t分布,记为«”),其中〃为其自由度。(2)计算t分布随机变量的期望和方差如下:Z=4=~K〃)£(Z)=£(-i)=£(X)£(-=J=)=0若随机变量イン”,则期望・ホ旧",方差O(Z)=E(Z-E(Z))'=E(Z:)=時)=E(ズ)xeJ)=(。⑶+(£(かメ昼)=足)=底)1/n1/n1fnYiア〜デ00,其密度函数为[どー>0小)=2吋§£(丄)イしゼエ^亠心び。.其他ー『「2飞)2%)!(3)随着自由度的增大,t分布的密度函数越来越接近标准正态分布的密度函数,即当自

155由度趋向无穷时极限分布是标准正态分布。实际应用中,一般当“230时,t分布与标准正态分布就非常接近。简述评价估计量的标准。[中央财经大学2013研、江苏大学2011研]答:评价估计量的标准有:无偏性、有效性、一致性。(1)无偏性E\e]=e若估计量(乂,又い…,%)的数学期望等于未知参数巴即:则称。为6的无偏估计量。估计量。的值不一定就是8的真值,因为它是一个随机变量,若。是タ的无偏估计量,则尽管。的值随样本的不同而变化,但平均来说它会等于タ的真值。(2)有效性设瓦=瓦(正ズレ…,与み=8"用.区,…,匕)都是8的无偏估计量,若对于任意た。,有以分区01み1且至少对于某ー个de。上式中的不等号成立,则称瓦较る有效。(3)一致性(相合性)lim尸陋”-8卜£卜1如果”依概率收敛于氏即V£>0,有则称。”是6的一致估计量。什么是极大似然法估计?它具有哪些优点?[暨南大学2011研]答:极大似然估计是1922年由R.A.Fisher提出的ー种参数估计方法。设X=(&,…,X")为从具有概率函数ア的总体中抽取的样本,。为未知参数或者参数向量。x=(演,…,当)为样本的观察值。若在给定x时,值"=8(x)满足下式:Z(。)=max£(x;8)则称i为参数8的极大似然估计值,而。a)称为参数9的极大似然估计量。若待估参数为9的函数g(の,则称g(の的极大似然估计量为g(あ。

156它的优点是:当存在ー个有效估计量时,似然方程就有一个等于有效估计量的唯一解,当“fH时,极大似然估计法的解依概率收敛于真值。什么是置信区间?说明置信区间对应的置信度的含义。[中央财经2010研复试]答:置信区间是指在区间估计中,由样本统计量所构造的总体参数的估计区间。如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率称为置信度,或称为置信水平。置信度l-a的含义:在随机抽样中,若重复抽样多次,得到样本メ,工,…,歪的多个样本值孙セ,…,毛,对应每个样本值都确定了一个置信区间(司.2),每个这样的区间要么包含了8的真值,要么不包含8的真值。根据伯努利大数定理,当抽样次数充分大时,这些区间中包含8的真值的频率接近于置信度(即概率),即在这些区间中包含的真值的区间大约有100(1-O。。个,不包含的真值的区间大约有100a。。个。三、计算题设正态分布随机变量X〜N(12,9)与Y〜N(10,16)相互独立。(1)分别求U=2X+Y与V=X-Y的分布,并说明U与V是否独立;(2)求概率P(12VX+YV32}。(用标准正态分布函数①(X)表示)[中山大学2014研]解:⑴EY=12,DX=9㈤『10,か=16,且x与丫相互独立,根据正态分布的性质知相互独立的服从正态分布的随机变量的线性组合仍服从正态分布,所以EU=E(2X+Y)=2EX+EY=34DU=D(2X+Y^=^DX+DY=52因此び二N(34,52)Cov(U,り=E(しリ-E(りE(り=E(2XZ-XY-产)-68=2EX'-EXY-EY1-EV=E^X-Y^=EX-EY=2DV=D^X-Y)=DX+DY=25因此レ二N(2,25)EX2=ハぽ+(£Y『=153EY2=DY+[EYy=116ォ与ア相互独立,因此EAT=EY"T120.因此.,ー。。い),〇Cov(L',F)=2?153120-116-68=2ノル(し)。(り由于在正态分布的场合,独立性与不相关性是一致的,因此U与V不独立。(2)令z=才+y,则EZ=E(X+Y)=EX^EY=22DZ=D(X+Y)=DX+DY=25因廿匕Z二N(22,25)

157/(X(1)设Xi,X\…,X”是来自概率密度为.〇,其他的总体的样本,S未知,求e的最大似然估计值。(2)设Xi,X2,…,X"是来自正态总体"ヽ1",1)的样本,と未知,求めス丫>2)的最大似然估计值。(3)设Xi,X2,…,X提来自总体外漓の的样本值,又»”"',求6的最大似然估计值。[首都师范大学2014研]丄(天の=n=ダ(ロモ)2解:⑴似然函数:号yyールい3丄(Kの)51n(の+("1)エ皿る)对数似然函数:ホ啊ム若仍)”,ぐー、对数似然函数对6求导:£e6と’E*)令导数为〇,得到タ的极大似然估计值:tre=P{X>2)=P(^—=1ー中(2—〃)(2)、,、11,6的极大似然估计值8=1一①(2一力,其中G为正态总体均值"的极大似然估计。下面求工

158din(丄(弘4))对数似然函数对ル求导:切Z(x:ー〃)=Z%ー〃〃tl=———=x令导数等于。得到"的极大似然估计〃〇因此,日的极大似然估计值合=1一①(2ーふ)=1-①(2_オ。(3)先求二项分布的参数タ的极大似然估计值。似然函数:厶匕e)=np(z=XiW=nc:び0ー①——/(Iーめ->口ぐ对数似然函数:山(丄(x;8))=£x/n(の+(“物-ZxJlnQーの+Zln(C:)对数似然函数关于®求导:eee\-eVxe=-^~令导数为〇得到,的极大似然估计mn。ーー3底因此,タ的极大似然估计值皿〇设总体X服从指数分布,zハス生x>0ハホ)寸。其它Xi,XX"为来自总体的简单随机样本。(1)求入的矩估计量;EGV)=じ7ム、;(2)求人的极大似然估计量。[东北财经大学2012研]解:(1)指数分布的均值为:」。X.”■+圣+…+%_1S.样本均值为:一〃ー〃£’令ア=1/ス,故ス=厅(2)要求未知参数入的极大似然估计量,可按如下步骤进行:写出似然函数:厶え)=rif(4え)=えス-

159Z(z)=wlnz-zVx对数似然函数:u'似然方程:比X-sn求解似然方程:即参数入的极大似然估计量为:な二_丄xtX对ー批产品(20000件)的质量进行抽样检验,随机抽出200件,发现6件不合格:(1)以95.45%(t=2)的概率保证程度推断这批产品的合格率范围。(2)若允许误差范围为2%,概率保证程度提高到99.73%(t=3)»其它条件不变,则至少应抽取多少件产品进行检验?[江苏大学2009研]解:(1)由于200/20000=1%,故可作为重复抽样来进行计算。由题意可知,合格产品的概率为0200,则在95.45%的概率保证程度下,这批产品的合格率范围是:\p(y-p)=97°o±2197〇ox3〇〇q200=97%±2.4%即(94.6%,99.4%)〇t睥-P)(2)允许误差为V"£(1-£)=97%x3%若』,则苧?ー所以至少应抽取655件产品进行检验。从ー批5000只日光灯中随机抽取1600只进行耐用时间的质量检验,已知该种型号的日光灯平均寿命为1500小时,标准差为800小时。分别按照重复抽样和不重复抽样两种方法计算样本平均寿命小于1550小时的概率。解:(1)按照重复抽样的方法由中心极限定理知,样本平均寿命53儀),则ザ双。’】),所以网』55。}=メ与也鼻牛—9938即在重复抽样的方法下,样本平均寿命小于1550小时的概率为0.9938。

160(2)按照不重复抽样的方法_〇iN-n由于是对有限样本的不重复抽样,所以样本均值的标准差’赤マふTx-1500x-1500,ヽA(0,1)800户000-160016.494J1600マ5000-1エ〜N(1500,(啓=、廖華め由中心极限定理知,样本平均寿命m600、5000-1,即—}臼爵マ需}—即在不重复抽样的方法下,样本平均寿命小于1550小时的概率为0.9988。

161第六章假设检验与方差分析6.I复习笔记ー、假设检验的基本原理假设检验的定义假设检验,是指事先对总体的参数或总体分布形式作出ー个假设,然后利用抽取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又被称为显著性检验。2.假设检验的步骤ー个完整的假设检验过程,包括以下几个步骤:(1)提出假设;(2)构造适当的检验统计量,并根据样本计算统计量的具体数值;(3)规定显著性水平,建立检验规则;(4)作出判断。3.原假设与备择假设(1)原假设原假设一般用H。表示,通常是设定总体参数等于某值,或服从某个分布函数等;(2)备择假设备择假设是与原假设互相排斥的假设,原假设与备择假设不可能同时成立。假设检验问题,实质上是要判断H。是否正确,若拒绝原假设H。,则意味着接受备择假设H”4.检验统计量检验统计量,是指根据所抽取的样本计算的用于检验原假设是否成立的随机变量。5.显著性水平、Pー值与临界值(1)显著性水平如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。假设检验中,称小概率为显著性水平,用a来表示,在应用中,通常取a=001,a=005o一般来说,犯第一类错误可能造成的损失越大,a的取值应当越小。对假设检验问题作出判断可依据两种规则:ー是Pー值规则;二是临界值规则。

162(2)Pー值规则Pー值,实际上是检验统计量超过(大于或小于)具体样本观测值的概率。如果P-值小于所给定的显著性水平,则认为原假设不太可能成立;如果P-值大于所给定的标准,则认为没有充分的证据否定原假设。(3)临界值规则根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。这种作出检验结论的方法,称之为临界值规则。6.双侧检验和单侧检验找出ー个临界值,将统计量的取值范围划分成拒绝区域与不能拒绝区域两部分。拒绝区域是检验统计量取值的小概率区域,可以将这个小概率区域安排在检验统计量分布的两端,也可以安排在分布的ー侧,分别称作双侧检验与单侧检验。单侧检验又按拒绝域在左侧还是在右侧而分为左侧检验与右侧检验两种。以服从正态分布的检验统计量Z为例,如图6-(b)左侧检验(〇右俯检验图6-1双側、単侧检验的拒绝域分配1所示。表6-1拒绝域的单、双侧与备择假设之间的对应关系拒绝域位置卜健檢舲的显著性水平判断标准原假设济择假设双側a/2Ho;H|キ仇^/左雅侧aH0l-Hi:”仄

163右単側aHo:際偏Hi,の次备择假设的不同表述的适用场合可归纳如表6-1所示。6.假设检验的两类错误显著性检验中的第一类错误是指:原假设事实上正确,可是检验统计量的观测值却落入拒绝域,因而否定了本来正确的假设,这是弃真的错误。。第二类错误是指:原假设事实上不正确,而检验统计量的观测值却落入了不能拒绝域,因而没有否定本来不正确的原假设,这是取伪的错误。在样本容量ね不变的条件下,犯两类错误的概率常常呈现反向的变化,要使a和刀同时减小,除非增加样本的容量。二、总体均值的假设检验单个总体均值的检验(1)总体为正态分布,总体方差已知来自总体的样本为对于假设ス:4=ル,在/z=4=~-v(°=i)同成立的前提下,有检验统计量(2)总体分布未知,总体方差已知,大样本来自总体的样本为(松ス"、孤),对于假设/:"=〃>,Z=N(〇」)成立的前提下,如果样本足够大(n>30),近似地有检验统计量Sソ”(3)总体为正态分布,总体方差未知来自总体的样本为(用スい…/"),_对于假设%:〃=外,在必X-&/ヽ成立的前提下,有检验统计量丹ル〇注意:若自由度(”T)230,该r统计量近似服从标准正态分布。(4)总体分布未知,总体方差未知,大样本来自总体的样本为(用スい…,%>),对于假设%:〃=外,在必成立的前提下,如果总体偏斜适度,且样本足够大,近似地有检验统计量Z=^^~N(0」)、師

1642.双总体均值是否相等的检验(1)两个正态总体,方差相等(但未知)两个正态总体为:总体1,用~"ル历);总体2,%~バル。;L并且,ゼ=ぞivvv\X\=—アム,=び。分别来自两个总体的样本为:样本1:(X山/,…,4J,そカ,s;=そー1占;样本2:(るセル,…小セ1,旳5,旳T](%T)S;+(%T)S:区+丄\"1+と-2マ〃In22(ムー同‘勺,并且,两样本独立。则有注意:当,+七ー2230时,上述检验统计量近似服从标准正态分布。(2)两个正态总体,方差モ相雙(也未知)Xi-Xz“[號+&这时,使用检验统计量、%と在原假设"。:从=出成立的条件下,由于封工封,统计量,不服从t一分布,但是其分布近似于t一分布,自由度近似地等于最接近ノ的自然数。ア的计算公式为:当自由度之30时,上述检验统计量近似服从标准正态分布。三、总体比例的假设检验单个总体比例的假设检验来自总体的样本为(%ム…■%),其中,各个XGL2只取1(“成功'')和。("失败”)两个值。样本中“成功”的次数为々。当”达到ー定程度时,样本比例P近似服从正态分布。因此,对于假设“。:0=タ。,在み。7-P~P-ビ。。ー0。)_成立的前提下,有V〃ーN(01)2.两个总体的比例是否相等的检验设有服从两点分布的随机变量&和エ,参数(“成功’‘概率)分别为片和ら。分别独立对这两个随机变量进行独立重复观测均次和旳次,观测结果为

165(ヘ餐・….ム)和(る1.%.…,占其中,每一次观测结果只取1(“成功,,)和。(“失败,,)两个值。对随机变量正的均次观测中“成功''次数为%,对随机变量区的巧次观测中“成功''次数为%,样本比例分别记作4=%/%和ら=牝ル:。为检验P1和0是否相等,建立原假设ム:。!=2=0。在原假设成立的条件下,有尸=(%+%)/(为+旳)=(4月+/月)/5+旳)z=----VI0,11#>(1ーア)(血+1饱)是タ的无偏估计量,当,和巧都充分大时,下面的检验统计量近似服从标准正态分布。即四、单因子方差分析方差分析的检验统计量开展方差分析需要先建立样本数据的方差分析恒等式SST=SSR+SSE式中,总变差平方和ssT=yyi\f-7.)1,7'’,组间变差平方和S2£す伍一工)=2>回一])ムロa…sse=zz(4一五)7J-1--1,组内变差平方和Zノ«4〇以上三式中的样本平均数定义为:_工!居1MルV=j=i=1yyv,总样本平均数占’匕ニー、y.各组样本平均数"’w其中,勺为各组样本观测值的个数,ス为所有样本观测值的个数,m是分组数目。可以证明,在原假设成立的条件下,下面的检验统计量服从分子自由度为SSR/(m-l)MSRIゝF=;-=Fw-l,w-wSSE/(〃ーm)MSE、J

166加一1,分母自由度为"ー物的F-分布。即2.关于方差分析的两点说明(1)方差分析中变量的类型方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。(2)总体的正态性和同方差方差分析适用于多个正态总体工(、ビ,••・加)均值的比较,且要求它们具有相同的方差。五、双因子方差分析双因子方差分析的任务(1)检查因子A对变量ア是否显著地有影响;(2)检查因子B对变量F是否显著地有影响;(3)检查因子A和因子B的交互作用对变量,是否显著地有影响。2.双因子方差分析首先建立样本数据的方差分析恒等式:SST=SSA+SSB+SSAB+SSE。式中:SST是总离差平方和;SSA是A因子处理间的离差平方和;SSB是B因子处理间的离差平方和;SSAB是AB交互作用处理间的离差平方和;SSE是组格内离差平方和。

167SSB=Z工{ほ,ー手「A因子各组处理样本平均数B因子各组处理样本平均数式中:r是A因子处理的种类;以上式中的各种样本平均数定义为yコ丄ママへ「リ」总体平均数ル%:-1:-1スノア一1之レ=V1.组格样本平均数‘"いエ"y.j.=-LyvC是B因子处理的种类;1是第び个组格总体所包含的样本观测值个数。将各种总离差平方和分别除以各自的自由度,可得到相应于各离差平方和来源的方差。即

168总方差SSTA因子处理间方差MSBB因子处理间方差ロSSB一nSABSL1B--————AB交互作用处理间方差けーリ(〜hMSESSE组格内方差分别针对前面给出的三个原假设可建立下列检验统计量经ユVSE遣ゴニ尸い)SSE/Eエへ-rc/'ゝ尸Iノ(1)针对H。1Fb=MSBMSESS3/(c—1)ーエ(ハ一/,,,「F(cT)SSE/エエヘ-rc'/33)(2)针对aaAfSE〃ニニSSEfン)〃《一rc,/バ丿肛£嘅T)(cf一口二T(c-l)(3)针对々s六、Excel在假设检验与方差分析中的应用假设检验AfST=r—yyn,-i

169对于参数检验,Excel提供了tー检验、Zー检验和F-检验分析工具。此外,也可以综合利用公式与相关函数计算出检验统计量和临界值。2.方差分析Excel提供了方差分析工具,利用该工具可方便地进行单因子方差分析和二因子方差分析(分为因子有交互作用或无交互作用两种)。

1706.2课后习题详解ー、单项选择题某种电子元件的使用者要求,ー批元件的废品率不能超过2%〇,否则拒收。1.使用者在决定是否接收而进行抽样检验时。提出的原假设是()。A.Ho:P>2%oB.H(>:P<2%«C.Ho:P=2%oD.其他【答案】B【解析】本题属于单侧检验问题,单侧检验分两种情况:ー种是我们所考察的数值越大越好,如灯泡的使用寿命、轮胎行驶的里程数,等等;另ー种是数值越小越好,如废品率、生产成本等。对本题而言,使用者更关注废品率的上限,因此应为右侧检验,其原假设为PW2%〇。对上述检验问题,标准正态检验统计量的取值区域分成拒绝域和接受域两部分。拒绝域位于接受域之()。A.左侧B,右侧C.两侧D.前三种可能性都存在【答案】B【解析】本题属于右侧检验问题。右侧检验又称为上限检验,其拒绝域位于接受域之右。在上述检验中,()05显著性水平对应的标准正态分布临界值是()。A.1.645B.±1.96C.-1645D.±1.645

171【答案】A【解析】右单侧检验的拒绝域在右侧,查表可知,().()5显著性水平下标准正态分布的检验统计量临界值为Za=1.645若算得检验统计量的样本值为150,电子元件的实际废品率是35%。,则会出现()。A.接受了正确的假设B.拒绝了错误的假设C,弃真错误D,取伪错误【答案】D【解析】005显著性水平下,由检验统计值L5<1.645,可知不能拒绝原假设,即认为该批元件的废品率不超过2%。。但实际废品率是3.5%。,假设本来不正确,却没有予以否定,犯了取伪错误。使用者偏重于担心出现取伪错误而造成的损失。那么他宁可把显著性水平定得()。A.大B.小C,大或小都可以D.先决条件不足,无法决定【答案】A【解析】当原假设ス)为真,我们却将其拒绝,犯这种错误的概率用a表示:当原假设“。为伪,我们却没有拒绝%,犯这种错误的概率用£表示。对于一定的样本量〃,如果减小a错误,就会增大犯ガ错误的机会:若减小タ错误,也会增大犯a错误的机会。使用者偏重于控制取伪错误ズ概率的大小,可通过增大a而达到减小月的目的。二、问答题某县要了解该县小学六年级学生语文理解程度是否达到及格水平(60分)。为此,从全体六年级学生中用简单随机放还抽样方法抽取了400人进行测试,得到平均成绩616分,标准差14.4分。要根据样本数据对总体参数的论断值(语文理解程度的期望值60分)作显著性检验,显著水平先后按a=0.05和a=()01考虑。请就上面的工作任务回答下列问题:

172(1)指出由样本数据观测到何种差异:(2)指出出现这种差异的两种可能的原因;①采用放还抽样方法;(3)针对这两种可能的原因提出相应的两种假设(原假设和备择假设),指出所提出的假设对应着单侧检验还是双侧检验,说明为什么要用单侧检验或者双侧检验;Hq:〃=60Hゝ:ルエ60所提出的假设对应着是双侧检验。(4)仿照式(67)构造检验统计量(如在那里说明过的:这个检验统计量服从t分布。不过,由于我们在这里所使用的是一个400人的足够大的样本,因而可以用标准正态分布7ーア一〃和作为r分布的近似);7_X-u61.6-60_ハ,S/J”14.4/^400(5)计算检验统计量的样本值;(6)根据上述样本值査表确定观测到的显著性水平;观察到的显著性水平0.0132(7)用观测到的显著性水平与检验所用的显著性水平标准比较(注意:如果是单侧检验,这个标准用口值,如果是双侧检验,这个标准用W2值),并说明,通过比较,你是否认为得到了足以反对“观测到的差异纯属机会变异”这ー论断(或是足以反对原假设)的足够的证据?为什么?当显著性水平为0.05时,z°w=l.%,拒绝原假设;当显著性水平为0.01时,へ次=2.575,不能拒绝原假设。所以选取不同的显著性水平影响了结论的判断,没有得到足以反对原假设的证据。(8)根据提出的显著性水平建立检验规则,然后用检验统计量的样本值与检验规则比较,重新回答(7)中的问题;(9)根据上面所做的工作。针对本题的研究任务给出结论性的表述。答:双侧检验;检验统计量的样本值2.22;观察到的显著性水平0.0132;当显著性水平为()。5时,拒绝原假设;当显著性水平为0.01时,z。0M=2675,不能拒绝原假设。是否a+ガ=1?(这里的a是犯弃真错误的概率,P

173是犯取伪错误的概率)请说明为什么是或为什么不是?答:不是。根据样本对总体进行推断有可能出现两种错误:第一类错误是指:原假设事实上正确,可是检验统计量的观测值却落入拒绝域,因而否定了本来正确的假设,这是弃真的错误,发生第一类错误的概率,在双侧检验时是两个尾部的拒绝域面积之和,在单侧检验时是单侧拒绝域的面积;第二类错误是指:原假设事实上不正确,而检验统计量的观测值却落入了不能拒绝域,因而没有否定本来不正确的原假设,这是取伪的错误。发生第二类错误的概率为内。在样本容量〃不变的条件下,犯两类错误的概率常常呈现反向的变化,a大则タ小,a小则ガ大,因为具有随机性,其和并不一定为1。要使a和タ都同时减小,除非增加样本的容量。3.据ー个汽车制造厂家称,某种新型小汽车耗用每加仑汽油至少能行驶25公里,一个消费者研究小组对此感兴趣并进行检验。检验时的前提条件是已知生产此种小汽车的单位燃料行驶里程技术性能指标服从正态分布,总体方差为4。试回答下列问题:(1)对于由16辆小汽车所组成的一个简单随机样本,取显著性水平为001,则检验中根据X来确定是否拒绝制造厂家的宣称时,其依据是什么(即检验规则是什么)?(2)按上述检验规则,当样本均值为每加仑23、24、255公里时,犯第一类错误的概率是多少?答:(1)进行左侧检验,提出假设:外〃小;H1:〃<25显著性水平为〇01时,Zooi=2-33,拒绝域为(7°「2.33]。(2)样本均值为23,24,25.5时,犯第一类错误的概率都是0.01三、计算题一台自动机床加工零件的直径x服从正态分布,加工要求为E(x)=5cm。现从一天的产品中抽取50个,分别测量直径后算得X=4.8cm,标准差0,6cm。试在显著性水平。05的要求下检验这天的产品直径平均值是否处在控制状态(用临界值规则)?解:(1)提出假设:スメ=5区:〃エ5(2)构造检验统计量并计算样本观测值,由于〃=50为大样本,故采用Z检验统计量。在原假设成立条件下:x—"4.8—5叵p.6,Z=y7=V50=-2.3570(3)确定临界值和拒绝域:Zoo25=1.96

174...拒绝域为(-x-1.96]U[1,96.+x)(4)做出检验决策:•.,0=2.3570〉Zx>25=1.96检验统计量的样本观测值落在拒绝域••・拒绝原假设H。,接受Hi假设,认为生产控制水平不正常。已知初婚年龄服从正态分布。根据9个人的调查结果,样本均值ヌ=23.5岁,样本标准差(以9-1作为分母计算)S=3岁。问是否可以认为该地区初婚年龄数学期望值已经超过20岁(a=005,用临界值规则)?解:(1)提出假设:昆:“420,兄:〃>20(2)构造检验统计量并计算样本观测值由于初婚年龄总体服从正态分布,总体标准差未知,属于小样本,所以用样本标准差代替总体标准差,相应检验统计量采用tー统计量。x-Uq23.5-20在原假设成立条件下:(3)确定临界值和拒绝域在0.05的显著水平下,查t-分布表得临界值も(h-D=&:(8)=L86,右侧检验的拒绝域是721.86。(4)做出检验决策:vr>r001(8)=1.86检验统计量的样本观测值落在拒绝域。.•・拒绝原假设み。,接受ス假设,即可以认为该地区初婚年龄数学期望值已经超过20岁。从某县小学六年级男学生中用简单随机抽样方式抽取400名,测量他们的体重,算得平均值为61.6公斤,标准差是14.4公斤。如果不知六年级男生体重随机变量服从何种分布。可否用上述样本均值猜测该随机变量的数学期望值为60公斤?按显著性水平。()5和0.01分别进行检验(用临界值规则)。解:样本量”=400,在大样本情况下,六年级男生体重随机变量近似服从正态分布。(1)a=0.05时,建立假设检验:

175①提出假设:Hq:4=60H、:"工60②构造检验统计量并计算样本观测值在月假设成立条件下:xー〃61.6-60下叵z=vn=V400=2,222③确定临界值和拒绝域Z0025=1.96拒绝域为(-8,T96]u[196,+00)④做出检验决策:VZ=2.222>Zoo25=1.96检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受Hi假设,认为该县六年级男生体重的数学期望不等于60公斤。(1)a=0.05时,建立假设检验:①提出假设:H0:=60H、:ルエ60②构造检验统计量并计算样本观测值在愿假设成立条件下:xー〃61.6-60広/14.42Z=V=V400=2,222③确定临界值和拒绝域Z().(x)5=2.575.•.拒绝域为(-=c-2.575]u[2.575,+X)④做出检验决策VZ=2.222

176某公司负责人发现开出去的发票有大量笔误,而且断定这些发票中,有笔误的发票占20%以上。随机抽取400张发票,检查后发现其中有笔误的占18%,这是否可以证明负责人的判断正确?(a=005,用临界值规则)解:建立假设:ス:ア40.2冃]:ア>0.2P=0.18,ねバoo,由于样本容量足够大,且ゆ和は1ー必皆大于5,故可用正态分布近似。吁:「01]一,ヤ0)0.18-0.202x11-02I400其检验统计量的值为:在0.05的显著水平下,右侧检验的临界值よ=105,而Z<4,故不能拒绝原假设H。,即不能证明负责人的判断正确。从某地区劳动者有限总体中用简单随机放回的方式抽取ー个4900人的样本,其中具有大学毕业文化程度的为600人。我们猜测,在该地区劳动者随机试验中任意一人具有大学毕业文化程度的概率是11%。要求检验上述猜测(a=005,用临界值规则)。解:(1)提出假设:Ho:夕=11%H:*11%(2)构造检验统计量并计算样本观测值在原假设成立条件下:丝=122样本比例ア="00%p-p0.122-0.11p(l-p)-fc.llx0.89Z=寸n=V4900=2.68(3)确定临界值和拒绝域厶皿=1.96拒绝域为(一8「L96]U396g)(4)做出检验决策VZ=2.68>Zoo25=1.96检验统计量的样本观测值落在拒绝域。••・拒绝原假设H。,接受Hi假设,即能够推翻所作的猜测。从某市已办理购房贷款的全体居民中用简单随机不放回方式抽取了342户,其中,月收入5000元以下的有137户,户均借款额74635万元,各户借款额之间的方差24999;月收入5(XX)元及以上的有205户,户借款额89756万元,各户借款额之间的方差28541。可见,在申请贷款的居民中,收入较高者,申请数额也较大。试问,收入水平不同的居民之间申请贷款水平的这种差别是ー种必然规律,还是纯属偶然?(ひ=0.05,用P-值规则和临界值规则)解:“5000元以下”无限总体的申请贷款额均值记作

177ル,“5000元及以上“无限总体的申请贷款额均值记作ル。把巧和“2分别看作两个无限总体的简单随机样本。提出假设:H。:内=ムH、:%・内7K一拓7.4635-8.9756-Z=I=・=,==-2.000届Sミ,24.99928.541ほ+マ1/^37-+^6T在原假设H。成立的条件下,计算检验统计量的样本观测值:①临界值规则由于丐和叱都相当大,上述检验统计量近似服从正态分布。所以,当a=095时,查标准正态分布表,得到双侧临界值分别是Z。组=±196。由于团=2.666>|Z°w|=1.96,故检验统计量的样本观测值落在拒绝域内,样本资料提供了显著的证据表明,高收入水平的居民申请贷款数额高于低收入水平的居民是ー种规律而并非偶然。②Pー值规则查标准正态分布表,标准正态分布曲线在Z=2.666右侧的面积为0.0036,这是观测到的显著水平,比规定的右尾显著水平标准0.025小得多。故拒绝原假设,说明高收入水平的居民申请贷款数额高于低收入水平的居民是ー种规律而并非偶然。用不放回简单随机抽样方法分别从甲、乙两地各抽取200名六年级学生进行数学测试,平均成绩分别为62分、67分,标准差分别为25分、20分,试以〇.05的显著水平检验两地六年级数学教学水平是否显著地有差异。解:(1)提出假设:H。:丛=%Hゝ:冉・内(2)构造检验统计量并计算样本观测值在“が三条件下:yi-yi67-62目巨+生Z二M〃】w:=V200200=2,209(3)确定临界值和拒绝域Zo.O25=l.96

178...拒绝域为(-8.-1.96]11396中》)(4)做出检验决策VZ=2.209>Zoo25=1.96检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受H,假设,即两地的教育水平有差异。从成年居民有限总体中简单随机不放回地抽取228人,经调查登记知其中男性100人,女性128人。就企业的促销活动(如折扣销售、抽奖销售、买几赠几等等)是否会激发本人购买欲望这ー问题请他(她)们发表意见。男性中有40%的人、女性中有43%的人回答说促销活动对自己影响不大或没有影响。试问,促销活动对不同性别的人购买欲望的影响是否有差别?(a=0.10,用临界值规则)解:(1)提出假设:Ho:P\-P1Hi:P\*Pユ(2)构造检验统计量并计算样本观测值在H。成立条件下:2ヱPlP:=043-04干"叫一熄542x058x(含+卷)_12Sx0.43-100x0,-l一心尸1=0一43,p2=0.4,Pf+%128+1004(»=1645(3)确定临界值和拒绝域.,.拒绝域为(-8「L645]Uk645,g)(4)做出检验决策

179...在0.1的显著水平下,团=0455Zoo5=l.645检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受Hi假设,即甲乙两地居民对该电视节目的偏好有差异。某企业为了扩大市场占有率,为开展产品促销活动,拟研究三种广告宣传形式即街头标牌广告、公交车广告和随报刊邮递广告对促销的效果,为此选择了三个人口规模和经济发展水平以及该企业产品过去的销售量类似的地区,然后随机地将三种广告宣传形式分别安排在其中一个地区进行试验,共试验了6周,各周销售量如表6-2所示。各种广告宣传方式的效果是否显著地有差异?(a=005,用P一值规则和临界值规则)表6-2三种广告宣传方式的销售量

180地区和广吿方式观测序号(周)123456甲地K:街头标牌广告535266625158乙地区:公交车广告614655495456丙地区:徴报刊邮递广告504045554042解:表6-3三种广告宣传方式的销售量甲地区535266625158乙地区614655495456丙地区504045554042由题意,设三种广告宣传方式的周销售量均值分别是阳,中,円,建立假设检验:H(l:J11==(12=J13,Hl:(Il,)12,円不全等。利用EXCEL软件进行方差分析计算,方差分析表如表6-4所示。表6-4方差分析表差异源SS离差平方和Df自由度MS均方差FF统计量P-valueP值组间430.11112215.05566.3396660.010105组内508.83331533.92222总计938.944417①临界值规则:显著水平为a=0.05时,F检验的临界值产(2/5)=3.68。由于尸=6.34>3.68,拒绝原假设H。,所以认为各种广告宣传方式的效果存在显著地差异。②Pー值规则:由于p值为0.01,小于显著水平a=0.05,拒绝原假设H。,所以认为各种广告宣传方式的效果存在显著地差异。从本市高考考生中简单随机抽取50人,登记个人的考试成绩、性别、父母文化程度(按

181(500.女.AM498.男•A><540.男.A)(530.女・A)(S50•女,A)(400.女..4)(560.男.A)<460.男.A”510.男•A"520.女.A)(524.男・ん)(450.用.8)(490.女.8)(430.男.>0(520.男.8)(540.女.B)(410.男.BM390.用.B)(58O.女.B〃320.男.B)父母中较高者,文化程度记作:A一大专以上,B一高中,C-初中,D小学以下)。数据如下:(430.男.BM4。0.女.BM55O.女.BM37O.女.BM380.男.B)(470,男.8)(570.女.C)(320.女.0(350.女.C)<420.男.C)(450.男.C)(48。.女.CM53O.女.0(540.男.C)(390.男.C)(410.女.C)(310.女.C)(300.男.0(540.女.ロ)(560.女.D>(290.A.0X310.男.D)(300.男.D)(340.男.D)(490.男.D)(280.男.D)(310.女.D)(320.女.D)(4O5.女.D)(410.男•D)(1)试检验学生的性别是否显著地影响考试成绩(显著性水平005,用P-值规则和临界值规则):(2)试检验家长的文化程度是否显著地影响学生的考试成绩(显著性水平〇.05,用P-值规则和临界值规则)。解:⑴①提出假设:Ho:|il=J12Hl:gl*|12②计算离差平方和:表6-5考试成绩表性别i成绩j男510410430380490498430390470420540300280410540560524520450390300460450320340310女5(X)4504903505303102904054005204(X)580550570540310530540370320480410560320由题可知,m=2,ni=26,m=24,n=50,エむ=ゆハデ]=*47£%=49309802y:=5008425,=9939405组间变差:SSR=二ny.*-nyS”/11122g_,10725.2cnノ1847V2=26x(——)^24x(——r-50x(——/262450=9550383.76-9545828.18=4555.58

182=9939405-9550383.76=38902124组内变差:③构造检验统计量并计算样本观测值SSR(»»-1)4555.58(2ー1)SSE(〃-刑)=389021.24/(50-2)=0.5621④确定临界值和拒绝域查表可得Ro,(1,48)=4.048..・拒绝域为:[468,-功⑤做出检验决策临界值规则:VF=0.5621'1=2763280Zy;=3O981OO£"=2237900Zyl=1840125V'=9939405组间变差="x*15x(%)“2x(めア+12x(啓)一。式州尸=9632609568-9545828.18=86781388

183『!!竽.—2SSR=i-i-n组内变差—Zy;Xn»yi-SSE=』H'--i=9939405-9632609.568=306795.432③构造检验统计量并计算样本观测值SSR/(m-T)86781.388/(4-1)F=SSE,'("ーめ=306795.43200-4)=4.3372④确定临界值和拒绝域Fo.o5(3,46)=2.816...拒绝域为:[2.816,+8)⑤做出检验决策临界值规则:,.,F=4.3372>Fo.o5(3,46)=2.816检验统计量的样本观测值落在拒绝域。.•・拒绝原假设H。,接受Hi假设,即父母文化程度对孩子的学习成绩有影响。Pー值规则:根据算得的检验统计量的样本值(F值)算出Pー值=0.008973。由于P-值=0.008973小于显著水平标准a=03,所以拒绝耳。,接受Hい即得到足以表明父母文化程度对孩子的学习成绩有影响的显著证据。某金属材料生产过程中,为提高其强度,需要进行热处理。热处理的温度和时间是影响该材料强度的两个主要因素。现取三个温度水平和四个时间水平,各个不同水平的每ー组合都进行了二次实验,测得该材料在各种热处理方式下的强度数据如表6-6所示。试分析温度、时间两个因素各自以及两个因素的交互作用对材料强度是否显著地有影响。(a=0.01,用P一值规则和临界值规则)

184时间BBi%物&溫度AAt5356697163645659A27168777869705859&7576727168665658表6-6某金属材料处理后的强度解:表6-7某金属材料处理后的强度□B1B2B3B4536963565671645971776958687870597572685676716658方差分析表如表6-8所示:表6-8方差分析表差异源SS离差平方和“自由度MS均方差FF统计量P-valueP-值温度A因素256.08332128.041768.288892.78E-07时间B因素714.79173238.2639127.07412.34E-09交互313.5833652.2638927.874072.24E-06内部22.5121.875总计1306.95823②临界值规则:显著水平为a=0.05时,R=68.28889>F0.8(2,12)=3.89,拒绝原假设H,“,即认为温度因素对材料强度有显著地影响。Fb=127.O741>Fo.«(3,12)=3.49,拒绝原假设H叫即认为时间因素对材料强度有显著地影响。Fab=27.87407>Fo.(>5(6,12)=3,拒绝原假设H0“即认为两个因素的交互作对材料强度有显著地影响。②Pー值规则:由方差分析表可知,温度因素、时间因素即交互作用的P-

185值均小于显著水平a=0.05,拒绝原假设,即可以认为温度、时间两个因素各自以及两个因素的交互作用对材料强度有显著地影响。

1866.3考研真题与典型习题详解ー、单项选择题一名研究者从甲、乙两地区分别随机抽取了100名成年人,测得他们的平均身高n与联〇欲检验H〇:内=円,经检验水平a=0.05的假设检验,得到p值小于a。这项结果表明()〇[中山大学2014研]A.如果內=円,则从抽样中观察到样本均数m与mユ这样的差异以及更极端的差异的可能性小于0.05B.证明了两个地区的身高的总均数内与内有差异C.有95%的可能性闺与心有差异D.有5%的可能性內与中有差异【答案】A【解析】p值为当原假设为真时所得到的样本观察结果或更极端结果出现的概率。当给定了显著性水平a,则在双侧检验中,p

187A,犯第一类错误的概率B.犯第二类错误的概率C.置信水平D.P值【答案】A【解析】假设检验遵循的原则是:在严格控制犯第一类错误概率的条件下,尽量控制犯第二类错误的概率。为了突出这个原则,把犯第一类错误的概率又称作为显著性水平。。设X,4,…,X“是总体N(4,ゴ)的ー个样本,当〃未知时,要检验%:グ=100,凡:グH100,则采用的检验统计量是()。[浙江工商大学2012研]ミ因ーア)A.']访B.之5-了)士(乂-乃£(乂ーめD.ノ100'【答案】D【解析】当〃未知时,要检验正态总体的方差,可用样本平均数代替总平均数〃,则随机变量,显然D项正确。在假设检验中,如果所计算出的产值越小,说明检验的结果()。[安徽财经大学2012研、中央财经大学2011研]A.越显著B.越不显著

188C.越真实D,越不真实【答案】A【解析】P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,就有理由拒绝原假设,P值越小,拒绝原假设的理由就越充分。在方差分析中,所提出的原假设是H。:内=%=…=%,备择假设是()。[江苏大学2012研]A.%:ルw必工…メルB.%:4〉生〉…〉ルC.H、:火〈":<•,•く氏D.d:从,色,…,ル不全相等【答案】D【解析】在方差分析中,原假设所描述的是在按照自变量的取值分成的类中,因变量的均值相等。因此,检验因素的と=…=45=…=ル个水平(总体)的均值是否相等,需要提出如下形式的假设:自变量对因变量没有显著影响况:4(i=L2,…次)不全相等自变量对因变量有显著影响在ー项消费者口味偏好的调查研究中,随机抽取了200名饮料的消费者,调查他们对两种品牌饮料口味的满意度,并进行了假设检验,其零假设是消费者对两种饮料没有偏好。如果满意度使用10分制打分,得到饮料甲平均得分为7分,饮料乙平均得分为5分,计算伴随概率P—值为0.001,因此研究人员做出了拒绝零假设的结论,下面说法正确的是()。[首都经济贸易大学2012研]A,犯弃真错误的概率等于0.001

189B.犯取伪错误的概率等于0.0001C,犯弃真错误的概率不大于0.001D.犯取伪错误的概率不大于。.001【答案】C【解析】P-值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率,也即利用样本观察值能够作出拒绝原假设的最小显著性水平。犯弃真错误的概率为显著性水平a。因此,当Pー值为0.001时说明犯弃真错误的概率不大于0.001。为研究食品的包装和销售地区对其销售量是否有影响,在三个不同地区中用三种不同包装方法进行销售,根据获得的销售量数据计算得到下面的方差分析表,如6-9所示。表中“A”单元格和“B”单元格内的结果是()。[安徽财经大学2012研]表6-9差异源SSdfMSF行22.22211.11A列955.562477.78B误差611.114152.78总计1588.898A.0.073和3.127B.0.023和43.005C.13.752和0.320D.43.005和0.320【答案】AB=FC=SfSCSfSE【解析】在无交互作用的双因素方差分析中,MSRMSE11.11152.78ミ0.0731998年的一次网络民意调查中,共7553人接受调查,其中4381人认为:“白水事件”调查执行官KennethStart应该询问所有可以找到的证人,包括时任总统克林顿的助手;由此,你能得出以下哪ー个结论?()[中山大学2011研]A,以上数据提供了充分证据,说明多数人认为KemlethStart应该询问所有可以找到的证人,包括时任总统克林顿的助手

190B.以上数据未提供充分证据,说明多数人认为KennethStart应该询问所有可以找到的证人,包括时任总统克林顿的助手C,以上数据提供了充分证据,说明多数人认为KennethStart不应询问所有可以找到的证人,包括时任总统克林顿的助手D.以上数据未提供充分证据,说明多数人认为KennethStart不应询问所有可以找到的证人,包括时任总统克林顿的助手【答案】A【解析】本题属于总体比例的检验,假设:“。:だ=5。°。;H[:兀エ50。。,其中だp=100%=58.00%为总体中认为“应该询问”的调查者所占的比例。样本比例フ553,_=Pi58.00%-50%_1391伝(1一巧)150%x(l-50%)-V»y7553o在0.01的置信水平下,スンス〇g,拒绝原假设,又由于P>灰,所以多数人认为“应该”。在下面的假定中,哪ー个不属于方差分析中的假定()。[浙江工商大学2011研]A.每个总体都服从正态分布B・各总体的方差相等C.观测值是独立的D・各总体的方差等于0【答案】D【解析】方差分析中有三个基本假设:①每个总体都应服从正态分布:②各个总体的方差メ必须相同;③观测值是独立的。关于单因素方差分析中的F检验()。[中央财经大学2011研]A.拒绝域在F分布曲线的右侧B.F统计量的样本观测值可能为负值C.拒绝域在F分布曲线的左侧和右侧D.以上表述都不对【答案】A【解析】在单因素方差分析中,若ド>月,则拒绝原假设タ。;若F

191告的人陈述广告的内容,记录的资料如表6-10所示。则在a=0.05的显著性水平下,检验对两个广告的回想比例没有差别,即检验假设Ho:Tti—Jt2=0,Hi:加一m*0,得到的结论是()。表6-10记录的资料广告看过广告的人数回想起主要内容的人数AB1502006360A.拒绝H。B.不拒绝HoC.可以拒绝也可以不拒绝H。D.可能拒绝也可能不拒绝H。【答案】A―Pi.Jp(l-pX—+—)【解析】在大样本条件下,检验统计量为:V丐旳,拒绝域为:\z\>za=1.96+_0.42x150+0.3x200P珥+旳35063…60Pi==〇」.p、=由题中数据计算可得,150,*200=0.3514,所以0.42-0.3和—嗚+嬴2.327|z|-2327>z=196由于T,在显著性水平a=0.05下,拒绝H。。设Zc为检验统计量的计算值,检验的假设为H。:444,H,:4>从,当Zc=1.645时,计算出的P值为()。A.0.05B.0.01C.0.025D.0.0025【答案】A

192【解析】由己知得,检验的统计量为Z,根据单侧检验P值的计算方法可得:P值=P(メい=p(Z>1.645)=0.05〇在假设检验中,接受原假设时,()A.可能会犯第I类错误B.可能会犯第II类错误C.可能会犯第I、II两类错误D.不会犯错误【答案】B【解析】当原假设为真却被拒绝时,犯的是弃真错误,称之为犯了第I类错误,而原假设为假却被接受时,犯的是取伪错误,称之为犯了第n类错误,因而接受原假设可能会犯第n类错误。双因素方差分析有两种类型:ー个是有交互作用的,ー个是无交互作用的。区别的关键是看这对因子()。A,是否独立B.是否都服从正态分布C.是否因子的水平相同D.是否有相同的自由度【答案】A【解析】双因素方差分析中的两个因素对因变量的影响是独立的,这是无交互作用的双因素方差分析。但如果两个因素搭配在一起会对因变量产生一种新的效应,就需要考虑交互作用对因变量的影响,这就是有交互作用的双因素方差分析。有交互作用的双因素方差分析是指用于检验的两个因素(A.对因变量的影响是独立的B.对因变量的影响是有交互作用的C.对自变量的影响是独立的D.对自变量的影响是有交互作用的【答案】B【解析】有交互作用的双因素方差分析是指用于检验的两个因素搭配在ー起会对因变量产生一种新的效用,此时就需要考虑交互作用对因变量的影响。与假设检验方法相比,方差分析方法可以使犯第I类错误的概率()A,提高B.降低

193C.等于〇D,等于1【答案】B【解析】与假设检验相比,方差分析可以提高检验的效率,同时由于它将所有的样本信息结合在一起,增加了分析的可靠性;随着个体显著性检验次数的增加,假设检验犯第I类错误的概率会增加,例如:取a=O.O5,连续进行6次假设检验,则犯第I类错误的概率为:1一(1-a)6=0.265>0.05。方差分析则排除了错误累积的概率。为了分析某校不同专业学生的某次统计学测试成绩是否有显著差异(假定其他条件都相同),可使用方差分析方法。在1%的显著性水平下,在10个专业中共计随机抽取50个学生进行调査,拒绝原假设的区域是()。A,优m%49),+工)B.(凡85(9,49),+x)C.(耳01(9,40),+8)D.(巣85(9,40),+x)【答案】C【解析】已知尸10,a=0.01,nk50,则组间自由度为r-l=10-l=9,组内自由度为ゼー尸50-10=40,那么,当ド>£(r-Lなー玲=ろ6(9,40)时,拒绝原假设。二、简答题简述假设检验的过程。[上海财经大学2013研,中央财经大学2011研、2005年复试,暨南大学2013研,东北财经大学2014研,西安交大2006研]答:假设检验的过程如下:(1)根据所研究问题的要求提出原假设冃。(或称为零假设、无效假设)和备择假设タリ确定显著性水平。显著性水平为拒绝假设检验是犯第一类错误的概率。(2)选择合适的检验方法,确定适当的检验统计量,确定统计量的分布,并由假设计算其数值。(3)根据统计量确定。值,做出统计推断。根据计算的统计量,查阅相应的统计表,确定「值,以。值与显著性水平a比较,若P«a,则拒绝"。,接受冃】;若P>a,则不拒绝.。。简述单因素方差分析的理论假设及基本步骤。[东北财经大学2013研]答:单因素方差分析研究的是一个分类型自变量对ー个数值型因变量的影响。首先提出“两个变量在总体中没有关系’’的原假设,然后构造ー个用于检验的统计量来检验这ー假设是否成立。单因素方差分析的步骤为:(1)按要求检验的と个水平的均值是否相等,提出原假设和备择假设;

194(2)构造检验统计量,计算各样本均值豆,样本总均值テ,总平方和賢ア、误差平方和5SE和组间平方和SSムSS4/(k一1)F=(3)计算样本统计量过(〃一月;(4)统计决策。比较统计量产和工ーk)的值。若ド〉外,拒绝原假设;反之,不能拒绝原假设。试述单侧检验和双侧检验的区别。【中央财经2008研复试]答:单侧检验和双侧检验的区别有:(1)问题的提法不同如果要检验样本均值(或成数)与假设总体的均值(或成数)是否有显著性差异,而不问差异的方向,应采用双侧检验。如果不仅要检验样本均值(或成数)与假设总体的均值(或成数)是否有显著性差异,还要追究其差异的方向,应采用单侧检验。决定是使用左侧检验还是使用右侧检验,取决于备选假设的性质。(2)建立假设的形式不同双侧检验的原假设和备则假设为:Ho!卩=隰,Hi:p/go如果关心的问题是总体的均值(或成数)是否低于预先的假设,采用的是左单侧检验,此时,其原假设和备选假设为:H():卩と伙),Hi:

195如果关心的问题是总体的均值(或成数)是否超过预先的假设,采用的是右单侧检验,此时,其原假设和备选假设为:Ho:Hjlo,Hi:g>|lo(3)拒绝域不同双侧检验的拒绝域在抽样分布的两侧(所以被称为双侧检验)。而单侧检验中,如果为左侧检验,拒绝域位于抽样分布的左侧;如果为右侧检验,拒绝域位于抽样分布的右侧。三、计算题中秋节期间,某市饮食业协会在该市居民家庭中随机抽取了100户进行调查,在节日期间全家到饭店聚餐的家庭有25户。(1)估计该市居民家庭中秋节期间全家到饭店聚餐的比例,并在95%的置信水平下给出该比例的置信区间。(2)己知该市去年中秋节期间全家到饭店聚餐的家庭比例为20%,在0.05的显著性水平ド,问今年该市居民家庭中秋节期间全家到饭店聚餐的比例是否比去年有所增加?(附:z°b=1.645,Zow=L%)[首都经济贸易大学2014研]解:(1)样本量“100,为大样本,因此样本比例户的抽样分布可用正态分布近似。根据抽样结果计算的样本比例为片面置信水平La=0.95,则=总体比例オ的置信区间为:PtZ-秒=^=25。。±1.96x/250ox(l-25%)Vtoo,即为25%;8.49。。=|16ふ。%334弊。),因此该市居民家庭中秋节期间全家到饭店聚餐比例的95%的置信区间为16.51%〜33.49%。(2)假设今年该市居民家庭中秋节期间全家到饭店聚餐的比例比去年增加了,为验证这一命题,原假设与备择假设应为:4/420%,%:P>20%。Zー尸=ド。一え=125已知a=0.05时,Zj1.645,检验统计量寸”丫100,因为Z<1.645,故接受原假设々,这说明该比例相比去年没有显著增加。某商场准备在商场内安装充电式应急照明灯,通过招标收到3家照明灯生产商的投标。该商场对3个生产商产品中进行抽样检验,以最终确定供应商。各个样品充电后可持续照明的时间长度(小时)数据和部分计算结果如表6-11所示。表6-11

196厂商观测值均值样本标准差生产商A9.709.609.401O.(X)10.309.800.35生产商B9.209.0010.009.209.109.300.40生产商C9.7010.5010.309.909.6010.000.39(1)根据以上数据进行方差分析,写出方差分析的原假设、备择假设。(2)根据方差分析的原理计算F统计量的值。计算过程和结果一律保留2位小数。(3)己知F检验中统计量的临界值为3.5,检验的结论如何?(4)分析人员认为根据初步的分析结果就可以淘汰厂商B,他的依据是什么?(5)如果只比较生产商A和C的均值是否相等,可以用什么检验方法?说明这种方法的基本步骤。[中央财经大学2014研]解:⑴原假设“。:4=4=4;备择假设ス:至少有4H出ぬ动;方差分析表表642差异源DfSSMSF组间21.30.654.483组内121.740.145总计143.04159/70,已知ル=9.80,シ=9.30,文=10.00其中%w=k一1,あだ="ー生也=Lん为生产商个数,“为所有观测值个数S£4=5x(980-9.70)2+5x(9.30-9.70)2+5x(10.00-9.70)2=1.3,SSE=SSEa+SSEb+SSEc=[(9.70-9.80)2+•••+(10.30-9.80)2]+[(9.20-9.30)2+—+(9.10-9.30):]+レ.70-10.00)2+—+(9.60-10.00)2]=0.5+0.64+0.6=1.74,SSI=+SSE=1.3+1.74=3.04;A6イ=SSAdf・聿;MSE=SSE也モ;F=MS.4MSE。(2)S$4/(左一1)1.30/2SSE/(n-k)~1.74/12=4.48(3)由于ア=4.48>F=3.5,因此拒绝原假设,认为平均持续照明的时间是有差异的。

197(4)由于厂商B抽样检验中的样品平均可持续照明的时间是最短的,且样本标准差最大,即样本的离散程度最高,因此结合这两个因素便可以淘汰厂商B。(5)可以用两个总体均值之差的双侧检验方法。基本步骤为:①提出原假设和备择假设:4:〃a一生=〇出:以一"c工°②确定检验统计量,并计算其数值。本题两个生厂商总体方差未知,且样本量较小,因此使用:统计量。L仇一义)ルバ”C)屋+立[りと,,的自由度为ア。③进行统计决策。看计算出的,值是否落入拒绝域,若トレ匕],接受”:;若1,1>kJ,拒绝4。有两个盒子,ー个盒子里有8个红球,2个黑球;另ー个盒子里有2个红球,8个黑球。现在从盒子中摸出ー个球来判断它来自哪个盒子。规则为:若摸出的是红球,则认为盒子里有8个红球;若摸出的是黑球,则认为盒子里有8个黑球。要求用假设检验的语言描述以上游戏(包括原假设、备择假设、拒绝域、非拒绝域、第一类错误、第二类错误等),并分析游戏中判定规则的合理性。[中国人民大学2013研]解:原假设刈。:来自8个红球的盒子;备择假设ス:来自8个黑球的盒子。拒绝域:抽出的球是黑球;非拒绝域:抽出的球是红球。第一类错误:结果是抽出黑球,拒绝原假设,但实际上可能来自8个红球的盒子;第二类戶(扌礙为真)=0.2=a错误:结果抽出红球,不拒绝原假设,但可能它来自8个黑球的盒子。故如果对误差的控制要求在20%以内,则规则设置不合理;相反,可以接受。ー项研究是调查市场专业人员的公司伦理价值观念。数据列表如表6-13所示(高分值表明伦理价值观念程度高),在显著性水平a=0.01下,对上述数据进行单因素方差分析,请把下面未完成的ANOVA表补充完整,并完成方差分析,说出检验的结论。[中山大学2012研]表6-13

198来源得分平均1市场管理人员6,5,4,5,6.4ZZJ市场研究人员5.5,4,4,5,44.51研究人员6,7,6.5,6,66方差来源平方和自由度均方F值专业7误差7.5总和解:补充完整的ANOVA表如表6-14所示。表6-14ANOVA表方差来源平方和自由度均方Ffl'l.专业误差总和77.5215173.50.57从方差分析表可以看到,由于尸=7>Roi(2/5)=6.3589,所以拒绝原假设日。,表明不同专业组之间的差异是显著的,即专业对市场专业人员的公司伦理价值观念有影响。为检验某新型肥料的增产效果,选取了10块相同面积的地块,从中随机选择5块地施用此新肥料,另外5块地不用新肥料,收获后施用新型肥料的5块地产量平均值为420公斤,样本方差为,100,另5块的平均值为400公斤,样本方差为81。假定产量服从正态分布,且施用新肥料与不施用新肥料产量的总体方差相等,在显著性水平0.05下,新型肥料有无显著的增产效果?【首都师范大学2012研]解:根据题意可以提出假设:工:4ー冉NOvsメルー外<°(5-l)s/+(5-l)sj5+5-2181由于c/,c/未知,且"=5<30,为小样本,所以应选用r作为检验统计量。有

199ヤー工VtxV?"5即样本统计量的值没有落在拒绝域内,则为接受原假设,认为新型肥料有显著的增产效果。在某高校医院针对教エ的健康调查中,随机抽取200名45岁以上的教エ,发现有20名超过两年没有进行过体检,随机抽取300名45岁以下的教エ,发现有50名超过两年没有进行过体检。根据以上抽样结果,能否认为年轻教工超过两年没有进行过体检的比例高于年纪大的教工(a=0.05)?[西安交大2007研]解:设ろ表示年纪大的教工超过两年没有进行体检的比例,马表示年轻教工超过两年没有进行体检的比例。H-i凡;工そHp药《药(1)建立假设为:西+工20+50_70%/200+300500两个样本合并之后的比例估计量为:2050Pi-Pi=200300rJp(”pX丄+丄)j0.14x(l-0.14)xf上+上:7/旳Y<200300丿(2)检验统计量的值为:这是单侧检验,a=095,zo.05=1.645,z<-z°05=-1.645,落入拒绝域,故认为年轻教工超过两年没有进行过体检的比例高于年纪大的教エ。第七章相关与回归分析

2007.I复习笔记ー、相关与回归分析的基本概念函数关系与相关关系客观现象总是普遍联系和相互依存的。客观现象之问的数量联系存在着两种不同的类型:ー种是函数关系,另ー种是相关关系。(1)函数关系当ー个或几个变量取一定的值时,另ー个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。(2)相关关系当ー个或几个相互联系的变量取一定数值时,与之相对应的另ー变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。2.相关关系的种类(1)按相关的程度可分为完全相关、不完全相关和不相关①当ー种现象的数量变化完全由另ー个现象的数量变化所确定时,称这两种现象间的关系为完全相关。②当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。③两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。(2)按相关的方向可分为正相关和负相关①当ー个现象的数量增加(或减少),另ー个现象的数量也随之增加(或减少)时,称为正相关。②当ー个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相关。(3)按相关的形式可分为线性相关和非线性相关

201①当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。②如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。(4)按所研究的变量多少可分为单相关、复相关和偏相关①两个变量之间的相关,称为单相关。②当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。③在某ー现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。2.相关分析与回归分析(1)相关分析的定义相关分析,是指用ー个指标来表明现象问相互依存关系的密切程度。(2)回归分析的定义回归分析,是指根据相关关系的具体形态,选择ー个合适的数学模型,来近似地表达变量间的平均变化关系。3.相关图相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之问相关关系的图形。二、简单线性相关与回归分析相关系数及其检验(1)相关系数的定义单相关分析是对两个变量之间的线性相关程度进行分析。单相关分析所采用的尺度为单相关系数,简称相关系数。Cov(X.Y)总体相关系数的定义式为""(孙’吧ェ(--©(X-F)样本相关系数的定义公式为在胸ー刃セ(小げ注:样本相关系数是总体相关系数的一致估计量。(2)相关系数的特点①〃的取值介于」与1之间。

202②当グ=0时,X与F的样本观测值之间没有线性关系。③在大多数情况下,即オ与y的样本观测值之间存在着一定的线性关系。当ァ>o时,オ与y为正相关:当ア<o时,x与y为负相关。④如果H=i,则表明オ与ア完全线性相关。当〃=1时,称为完全正相关;而プ=-1时,称为完全负相关。⑤r是对变量之间线性相关关系的度量。ア=o只是表明两个变量之间不存在线性关系,它并不意味着オ与,之间不存在其他类型的关系。对于两者之间可能存在的非线性相关关系,。(3)相关系数的计算,=〃ー制;一一Xニエ«2£一二%)%なに(な)]样本相关系数的计算公式为:(4)相关系数的检验①计算相关系数「的,值。②根据给定的显著性水平和自由度("一,),査找"分布表中相应的临界值レル。若“2。,表明ア在统计上是显著的。若表明Z•在统计上是不显著的。2.标准的一元线性回归模型(1)总体回归函数假定因变量F主要受自变量X的影响,它们之间存在着近似的线性函数关系,即有兄=片+用X+4,该式被称为总体回归函数。式中的月和区是未知的参数,又叫回归系数。】;和兄分别是丫和ズ的第,个观测值。々是随机误差项,又称随机干扰项,它是ー个特殊的随机变量,反映未列入方程式的其他各种因素对y的影响。如果用数学形式表示,可有七(]:)=4+舟乂。该式表明:在x的值给定的条件下,r的期望值是x的严密的线性函数。

203(2)样本回归函数用タ表示两者之差(ら=スーア/,则有エ=み+スム+43=L2,…。上式称为样本回归函数。式中4称为残差,在概念上,a与总体误差项ち相互对应:〃是样本的容量。样本回归函数与总体回归函数之间的区别:①总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取ー组样本,便可以拟合一条样本回归线。②总体回归函数中的后和用是未知的参数,表现为常数。而样本回归函数中的五和る是随机变量,其具体数值随所抽取的样本观测值不同而变动。③总体回归函数中的。是ス与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的《是エ与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出4的具体数值。(3)误差项的标准假定随机误差项。是无法直接观测的。为了进行回归分析,通常需要对其概率分布提出ー些假定。这些假定有假定1误差项的期望值为0,即对所有的,总有石(与)=°。假定2误差项的方差为常数,即对所有的,总有・の・(耳)=日ビいび。假定3误差项之间不存在序列相关关系,其协方差为零,即当rxs时有0"(らら)=0。假定4自变量是给定的变量,与随机误差项线性无关。假定5随机误差项服从正态分布。满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。2.一元线性回归模型的估计(1)回归系数的点估计设。=2停ー4=エロ;一A一区对,将。对6和反求偏导数,并令其等于零,可得

20462Z+Aエ片=2";月ー〃工大工ーエ式E】;0片-(メ)'以上方程组称为正规方程组或标准方程组,式中的〃是样本容量。求解这一方程组可得:自=エエ/“-AZX/I-A了以上两式是估计总体回归系数片和因公式。(2)总体方差的估计ザ的无偏估计メ可由下式给出上式中,分子是残差平方和,分母是自由度,其中〃是样本观测值的个数,2是一元线性回归方程中回归系数的个数。5ユ的正平方根又叫做回归估计的标准误差。S越小,表明实际观测点与所拟合的样本回归线的离差程度越小,即回归线具有较强的代表性。反之,s越大,表明实际观测点与所拟合的样本回归线的离差程度越大,即回归线的代表性较差。(3)最小二乘估计量的性质①最小二乘估计量是因变量观测值エ的线性函数,其期望值等于总体回归系数的真值。因此,最小二乘估计量是总体回归系数的线性无偏估计量。②在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小,同时回归系数的最小二乘估计量也是最优线性无偏估计量和一致估计量。(4)回归系数的区间估计由于ス是服从正态分布的变量,所以反和区也服从正态分布。所以有

205自コn(片尾)粗コn(ス耳)在总体方差已知的情况下,利用上述正态分布便可以进行区间估计。当总体方差。?未知时,要用其无偏估计量空去代替。当样本为小样本时,回归系数估计值的标准化变换值r服从自由度为“-え的,分布。可得到以下回归系数区间估计的公式式中:ウ是回归系数ア估计的样本标准误差;1是显著水平为a;自由度为(〃-2)的,分布双侧临界值。2.一元线性回归模型的检验(1)回归模型检验的种类回归模型的检验包括理论意义检验、ー级检验和二级检验。①理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。②ー级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。ー级检验是对所有现象进行回归分析时都必须通过的检验。③二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。(2)拟合程度的评价SST=SSR+SSE拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。式中:SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。将该式的两边同除以SST,得:

206一SSRSSESSTSSTO由此可知,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占户_SS&_]SSE的比例就越大。因此,可定义这ー比例为决定系数,即有SSTSST。决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。决定系数バ具有如下特性:①决定系数バ具有非负性;②决定系数的取值范围为04パ41;当所有的实际观测值都位于回归直线上时,SSE=0,这时パ=1,说明总离差可以完全由所估计的样本回归直线来解释;当实际观测值并不是全部位于回归直线上时,但又大致分布在其附近时,SSE>0i这时パイ;当回归直线没有解释任何离差,模型中解释变量オ与因变量完全无关时,y的总离差可全部归于残差平方和,即SSE=SST。③决定系数是样本观测值的函数,它也是ー个统计量④在一元线性回归模型中,决定系数是单相关系数的平方(3)显著性检验回归分析中的显著性检验包括两方面的内容:一是对各回归系数的显著性检验;二是对整个回归方程的显著性检验。①显著性检验的定义回归系数的显著性检验,是指根据样本估计的结果对总体回归系数的有关假设进行检验。月与自的检验方法是相同的,但网的检验更为重要,因为它表明自变量对因变量影响的程度。②回归系数显著性检验的基本步骤:a.提出假设。へ响=区用:自工区b.确定显著水平a。显著水平的大小应根据犯哪ー类错误可能带来损失的大小确定。一般情况下可取〇。5。^~~S~C.计算回归系数的r值。上式中,‘厶是回归系数区估计的标准误差d.确定临界值。tー检验的临界值是由显著水平和自由度ガ决定的。e.作出判断。

207如果も的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果ス的绝对值小于临界值的绝对值,则接受原假设。2.一元线性回归模型预测(1)回归预测的基本公式ウ=禽+A巧简单回归预测的基本公式如下式中:ち是给定的X的具体数值;ル是ち给定时y的预测值;育和区是已估计出的样本回归系数。(2)预测误差在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个:①模型本身中的误差因素所造成的误差。②由于回归系数的估计值同其真值不一致所造成的误差。③由于自变量x的设定值同其实际值的偏离所造成的误差。④由于未来时期总体回归系数发生变化所造成的误差。(3)区间预测由于(ルーヮ)/S,,服从于自由度为5-2)的,分布。可以得出り的的置信区间为-S“对于每ー个给定的X值,计算相应的F的置信区间,并将连接各点的曲线描绘在平面图上,便可得到图7-1。

208图7-1回归预测的置信区间从置信区间和"的计算公式以及图7-1,可以得到以下结论:①置信区间的上下限对称地落在样本回归直线两边,呈中间小两头大的喇叭形。②在样本容量〃保持不变时,%^”ーエ)的值,随置信度0一a)的提高而增加,因此,要求预测值的概率保证程度增加,在其他条件不变时,也就意味着预测精度的降低。③当其他条件不变时,んル(“-2)和"的值均为样本容量〃的减函数,即随着〃的增加,这两者将逐渐减少。这说明随着样本容量的增加,预测精度将会提高,而样本容量过小,预测的精度就较差。④当”足够大时,,〇会趋近于S;匕:(〃ー2)会趋近于zイ。这时,可以用S和Z.7:取代ッ和んル来确定预测区间。即样本容量充分大时,ワ的0一a)的置信区间为ワ士z4xS〇按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图7-1中与样本回归线平行的两条虚线)。三、多元线性相关与回归分析标准的多元线性回归模型研究在线性相关条件下,两个和两个以上自变量对ー个因变量的数量变化关系,称为多元线性回归分析,表现这ー数量关系的数学公式,称为多元线性回归模型。多元线性回归模型总体回归函数的一般形式如下=4+网居+…+凤居+。假设已给出了〃个观测值,同时6,区,…,A

209Yt=A+Ax”+-"+PiXaJret{t=\,l,-.n)为总体回归系数的估计,则多元线性回归模型的样本回归函数如下回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即”〉に称这条假定为标准假定。2.多元线性回归模型的估计(1)回归系数的估计—田工一行=汇(工ー6一る及「ー一一倉居『多元线性回归模型中回归系数的估计同样采用最小二乘法。设*+AZ爲+…+AZ居=づ;将。对月,后,…,ヨ求偏导数,并令其等于零,加以整理后可得到以下ん个方程式,工爲+区汇胫+…+区エれ爲=工爲エ成2爲+区二招爲+…+6エ爲=2爲];以上ん元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到五,次,…,み。求解多元回归方程,用矩阵形式来表达较为简便。记

210yi则总体回归函数可以写为F=A3+U,样本回归函数可以写为,=拓+e,标准方程组可以写为(XX)上=・丁。式中r表示X的转置矩阵。(XX)是ー个kxえ的对称矩阵,根据标准假定,(4T)个自变量之间不存在高度的线性相关,因此其逆矩阵存在。(2)总体方差的估计与一元回归分析相类似,多元线性回归模型中的ザ也是利用残差平方和除以其自由度来估计的。即有n-kメ是び的无偏估计,Sユ的正平方根S又叫做回归估计的标准误差。S越小,表明样本回归方程的代表性越强。(3)最小二乘估计量的性质与一元线性回归模型类似,在标准假定条件可以得到满足的情况下,多元回归模型中回归系数最小二乘估计量的期望值同样等于总体回归系数的真值,即有臼“片'。回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。3.多元线性回归模型的检验和预测(1)拟合程度的评价多元回归的决定系数用を表示,其计算公式为乙Iムー“。利用が来评价多元线性回归方程的拟合程度,必须注意以下问题:由决定系数的定义可知,灰的大小取决于残差平方和乙4在总离差平方和二口;一口中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。因此,R2是自变量个数的非递减函数。在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多

211元线性回归模型中,各回归模型所含的变量的数目未必相同,以及‘的大小作为衡量拟合优劣的尺度是不合适的。因此,在多元回归分析中,人们更常用的评价指标是修正自由度的决定系数ア。及・=1~(1ー紹)*:/(〃ーた)该指标的定义如下式中:〃是样本容量;ん是模型中回归系数的个数。(〃ー1)和(〃ーん)实际上分别是总离差平方和与残差平方和的自由度。修正自由度的决定系数ぜ具有以下特点:①铲4紹。因为kNl,所以根据で和が各自的定义式可以得出这ー结论。对于给定的が值和〃值,え值越大マ越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。铲作为综合评价这两方面情况的ー项指标显然比が更为合适。②ア小于1,但未必都大于。。在拟合极差的场合,ア有可能取负值。(2)显著性检验多元线性回归模型的显著性检验包括回归系数的显著性检验与回归方程的显著性检验。①回归系数的显著性检验进行回归系数的显著性检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍作出正确的判断。多元模型中回归系数的检验同样采用tー检验和P-检验,其原理和基本步骤与一元回归模型基本相同。回归系数显著性检验,ヌ,ヽろ=72■(ノ=L2,…用__统计量的一般计算公式モ。式中:ガ,•是回归系数的估计值;3,是ガノ的标准差的估计值,其计算公式为"二十'*%。式中:匕/是的第ノ个对角线元素;ア是随机误差项方差的估计值。②回归方程的显著性检验a.假设总体回归方程不显著,即有名:凤=旦ヨー=区二°。b.进行方差分析,列出回归方差分析表,如表7-1所示。肉总%称平方和自由度方差

212回归平方和ssr=g(匕-y”トーIssra-1)残る平方和SSE-ゝw“ー6SSE(〃-A)总离基平方和ssr=£<匕-わ2n-1表7-1回归模型方差分析表表中,回归平方和的取值受と个回归系数估计值的影响,同时又要服从二】ン〃=テ的约束条件,因此其自由度是と一1。残差平方和取决于〃个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是〃ーL回归平方和与残差平方和各除以自身的自由度得到的是样本方差。c.根据方差分析的结果求F统计量,即在随机误差项服从正态分布同时原假设成立的条件下,ド服从于自由度为(レ1)和(时幼的F一分布。d.根据自由度和给定的显著性水平二,查F-分布表中的理论临界值月。当ア〉片时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当产くエ时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显著,因而所建立的回归模型没有意义。(3)多元线性回归预测り+区ホ/+・・・十月ズデ多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下式中:ち(ノ=23,…,左)是给定的る在预测期的具体数值;以是已估计出的样本回归系数;ル是と给定时F的预测值。s《=syi+右(び「巧多元线性回归预测标准误差的计算公式如下式中:s是回归方程估计的标准误差。多元线性回归预测ワ的0ーa)的置信区问可由下式给出式中:匕2是显著水平为a的r分布双侧临界值。3.复相关系数和偏相关系数(1)复相关系数

213pーL"」…:样本复相关系数(以下简称复相关系数)的定义式如下上式与单相关系数的定义式十分类似,不同之处仅在于用根据エ,*3.…*4等计算的回归估计值£代替了单相关系数定义式中的乂。复相关系数的平方实际上就是多元线性回归方程的决定系数。复相关系数的取值区间为04及41。复相关系数为1,表明ア与区,厶,…,孤之间存在严密的线性关系,复相关系数为0则表明丫与工・区,….工之间不存在任何线性相关关系。一般情况下,复相关系数的取值在0和1之间,表明变量之间存在一定程度的线性相关关系。(2)偏相关系数偏相关系数等于两个相应的偏回归系数的几何平均数。爲=+■3入れ+63:ス1设有3个变量%、区和エ。3个变量各自以另两个变量为自变量拟合的样本回归方程如下£r=A13+為3工1+区1エ1工!=A12+悬2エr+区1エ!以上各式中的第1项均为截距系数,表示当模型中的自变量取零值时因变量的平均值。r113=土#L”氏3利用以上偏回归系数,3个变量之间的偏相关系数可定义如下仁=士マ4ア爲ア雄1=±マ氏iAii

214偏相关系数的取值范围在/至+1之间,其符号与相应的偏回归系数相同。kyXy推广到个变量的场合,令,为,则“与各自变量的偏相关系数的一般形式可表现为=班=7=二(ノニ空..•・田。式中:凡ユ山—エ是y对X的偏回归系数;gLaー〃ーi“—是X对,的偏回归系数。表示ん个变量情况下丫与乂的偏相关系数,它反映其他自变量保持不变时ド与用的净相关程度。

2157.2课后习题详解ー、选择题日变量之间的关系按相关程度分可分为()。A.正相关B.不相关C.完全相关D.不完全相关【答案】BCD【解析】当一个或几个相互联系的变量取一定数值时,与之相对应的另ー变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量问的这种相互关系,称为具有不确定性的相关关系。相关关系按照相关程度分为完全相关、不完全相关、不相关;按相关的方向可分为正相关和负相关;按相关的形式可分为线性相关和非线性相关;按所研究的变量多少可分为单相关、复相关和偏相关。复相关系数的取值区间为()。A.O

216【答案】ABD【解析】决定系数又叫判定系数,也称为拟合优度,表示自变量对因变量的解释程度。取值范围在0和1之间。当把越接近1时,表示相关的方程式参考价值越高;相反,越接近0时,表示参考价值越低。修正的决定系数为,“ーレ1ノ,そSQ,有时候小于〇,并且它比R,更适合作为衡量回归方程拟合程度的指标。回归预测误差的大小与下列因素有关()。A,样本容量B.自变量预测值与自变量样本平均数的离差C,自变量预测误差D.随机误差项的方差【答案】ABCD【解析】在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个:(1)模型本身中的误差因素所造成的误差。这ー误差可以用总体随机误差项的方差来评价。(2)由于回归系数的估计值同其真值不一致所造成的误差。这ー误差可以用回归系数的最小二乘估计量的方差来评价。(3)由于自变量X的设定值同其实际值的偏离所造成的误差。(4)由于未来时期总体回归系数发生变化所造成的误差。二、判断分析题产品的总成本随着产量增加而上升,这种现象属于函数关系。【答案】错【解析】应是相关关系。单位成本与产量间不存在确定的数值对应关系。相关系数为0表明两个变量之间不存在任何关系。【答案】错【解析】相关系数为0,表明两个变量之间不存在线性关系。但是不能表明变量之间不存在任何关系。单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。【答案】对

217【解析】因果关系的判断还有赖于实质性科学的理论分析。圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。【答案】对【解析】圆的直径和周长公式为Z-d周长和直径之间是正线性相关关系。样本回归函数中回归系数的估计量是随机变量。【答案】对【解析】总体回归函数中的回归系数是有待估计的参数,因而是常数,样本回归函数中的回归系数的估计量的取值随抽取的样本不同而变化,因此是随机变量。当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。【答案】对【解析】因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同,估计的结果仍然不一样偏相关系数与单相关系数的符号总是一致的。【答案】错【解析】由于各种原因,偏相关系数与单相关系数的符号有不一致的可能。三、证明题试证明最小二乘估计量A是标准一元线性回归模型中总体回归系数网的最优线性无偏估计量。ーユ,:エエエーエrエエエばー和"门日エー『取々・豆一吃ー一だぬ二=タエ一方力证明:Z(凡-了,_正ーマ~CD;rZ区-了),其中q=%-(一+U,令と(%ー了)’则貝A)电+e(n叫)电+y°E(uアd+o=/3z所以ヨ是现行无偏估计量。接下来证明它在线形无偏估计量中具有最小方差。设A=ス为网的任意线性无偏估计量。E区)=za,E3+伝と+4)=4エム+尸:エ。エ+Zム石(%)=尸:也即,作为用的任意线性无偏估计量,必须满足下列约束条件:

218Zar=°5且Zadr=lEor(A)=larXa工=X0叫=ゴ{又因为、言】;=グ,所以:yrx「又Xt-Xゴ=°」“ー工(乂-乃(乂-乃/"Z1乂ー'*—]:-cr:2(匕ー万;。乙az(匕ー©:」[v(ATr-J):r、、brX.-X..X.-X.、寸rX.-X,:21分析此式:由于写项是常数,所以,.(房)只能通过忙项yrX.-X-2X.-Xaz'[a.--~~-——=-^r]a=—~-——=--r~一-的处理使之最小化。明显,只有当,二(エーか时,“㈤minVar^)=(T——=-y=Var{/3^と(3ーX)ォ可以取最小值,即:所以,A是标准一元线性回归模型中总体回归系数内的最优线性无偏估计量。四、计算题设销售收入X为自变量,销售成本Y为因变量。现已根据某百货公司12个月的有关资料计算出以下数据(单位:万元)。{れー玲=425053.73了=m88W任一リ:262855.25于=549.8•

219汇。;-jjIX-ア尸334229.09试利用以上数据:(1)拟合简单线性回归方程,并对回归系数的经济意义作出解释;(2)计算决定系数和回归估计的标准误差;(3)对自进行显著水平为5%的显著性检验;(4)假定明年1月销售收入为800万元,利用拟合的回归方程预测相应的销售成本,并给出置信度为95%的预测区间。解:方=f一=549.8-0.7863x647.88=40.3720伝=nエー百334229.09425053.73=0.7863(2)=2.08892.0889_7425053.73=0.003204[ZQ;-YXX-ゐF334229.09:Annno,,こ(%-スアエ。;一戸):425053.73x262855.25-'ye;=(1ーバ)Z(F-か:=43.6340(3)%:=0咼:nh0,一A_07863.247120f:S.:0003204ん式“-2)=ra0J(10)=2.228r值远大于临界值2.228,故拒绝零假设,说明内在5%的显著性水平下通过了显著性检验。(4)17=40.3720+0.7863x800=669.41(万元)

2201(耳・T):"工®一行2.0089几丄-師ざ之12425053.73=11429Yf±ta2(n-2)S,=669.41±2.228x1.0667=669.41±2.3767所以,预测区间为:(66二对9位青少年的身高1‘与体重x进行观测,并已得出以下数据:yr.=13.54yr2=22.9788ナX.=472yT*=28158万・£=803.02要求:(1)以身高为因变量,体重为自变量,建立线性回归方程;(2)计算残差平方和决定系数;(3)计算身高与体重的相关系数并进行显著性检验(自由度为7,显著水平为0.05的t-分布双侧检验临界值为2.365);(4)对回归系数网进行显著性检验。解:(1)设ド=月+A:X+q=s’&%ー了)亿ーり”!>工ー工エZ19x803.02-472x13.54〇〇”・男工(%—マ)‘"Z正’-(ZXj9x28158-(472);-由正规方程;=?-^;xx=1.50-0.027x52.44=0.084回归方程为手=0.084+0.027万(2)エい=2。'「げ=汇(无ー(自+るる)「=S]丁-加平残差平方和;=2.6244-0.027x92.92=0.11556相关系数:

221[Z(耳ーテXX:ーゐ]工(凡一切エ/ー厅803.02-1x472x13.549sJ28158-lx(472):^22,9788-1x(13.54):92.92_58.35x1.62=0.983可决系数:J?2=r2=0,966(3)[£([テX冬ー初92.92_58.35x1.62=0.983803.02-1x472x13.549128158-!x(472)リ22.9788-gx(13.54尸相关系数:相关系数显著性检验:Ho:r=0;统计量:0.983x2.62.56道ー0.983:0184区ゾエ。=14>2.365故拒绝原假设,说明相关系数显著不为〇。(4)设H。:网=0%:A*ot.=A=-llrl=7.31X1〇•4=0.000731<1.89统计量:一,戻175.04回归系数自不显著为〇。我国历年的GDP和最终消费资料如表7-2所示。我国的国内生产总值与最终消费単位:亿元

222年份/年国内生产总值消费年份/年网内生产总值消费19783605.62239.1199018319.511365.219794074.02619.419912128a413145.919804551.32976.1199225863.615952.119814901.43309.1199334500.720182.11ベ5489.23637.9199446690.726796.019836076.34020.5199558510.533635.019817164.44694.5199668330.440003.919858792.15773.0199774891.243579.4198610132.86542.0199879003.316405.9198711784.07451.2199982673.149722.7198814704.09360.1200089112.554617.2198916466.010556.5资料来源I(中国统计年鉴ハ中国犹计出版社•2001年版表7-2我国历年的GDP和最终消费试根据上表的资料利用Excel软件完成以下问题。(1)拟合以下形式的消费函数C1=pi+p2Y.+p3C,-1+U.式中:6是,期的消费;G-是"1期的消费;ス是r期的GDP。(2)计算随机误差项的方差估计值、修正自由度的决定系数、各回归系数的t统计量,并对整个回归方程进行显著性检验。(3)假设2001年的国内生产总值为95350亿元,试利用拟合的消费函数预测当年的消费总额,并给出置信度为95%的预测区间。解:(1)回归分析的Excel操作步骤为:步骤ー:首先对原先Excel数据表作适当修改,添加“滞后一期的消费”数据到表中。步骤ニ:进行回归分析选择“工具”一“数据分析”一“回归”,在该窗口中选定自变量和因变量的数据区域,最后点击“确定”完成操作:得到回归方程为:

223Ct=466,7965+0.447U;+0.2640C-(2)从回归分析的结果可知:随机误差项的标准差估计值:S=442.2165修正自由度的决定系数:AdjustedRSquares=0.9994各回归系数的t统计量为:t-=3.3533t-=15.6603r=4.9389卜;&;海F统计量为16484.6,远远大于临界值3.52,说明整个方程非常显著。(3)预测使用Excel进行区间估计步骤如下:步骤ー:构造工作表步骤二:为方便后续步骤书写公式,定义某些单元格区域的名称步骤三:计算点预测值[步骤四:计算t临界值步骤五:计算预测估计误差的估计值以,步骤六:计算置信区间上下限最终得出しメ的区间预测结果:56380.054C,<58662.33

2247.3考研真题与典型习题详解ー、单项选择题线性回归预测过程中,在自变量取值和置信度为一定的条件下,总是()。[东北财经大学2014研]A.个别值的估计区间小于平均值的估计区间B,个别值的估计区间大于平均值的估计区间C,个别值的估计区间等于平均值的估计区间D.个别值的估计区间与平均值的估计区间没有关系【答案】B【解析】利用估计的回归方程,对于X的ー个特定值七,求出ツ’的ー个估计值的区间为估计区间。区间估计有两种类型:ー是置信区间估计,它是对X的ー个给定值・。,求出ア的平均值的估计区间,这一区间称为置信区间;ニ是预测区间估计,它是对X的ー个给定值X。,求出ア的ー个个别值的估计区间,这一区间称为预测区间。个别值的预测区间要比平均值的置信显著性水平a下ンb超信区间为ー区间宽ー些。显著性水平a下)ン的置信区间为

225对于线性回归模型,J=+假设オ的第一列的元素全为1,且ラ为y的最小二乘预测值。定义A=X(v;-y.IB=Xvj5,合川,那么()。[中国科学技术大学2013研]A.A=BB.A>BC.A

226D.等于自变量的平方根【答案】c【解析】估计标准误差就是度量各实际观测点在直线周围的散布状况的ー个统计量,它是对误差项£的标准差。的估计,是均方残差(MSE)的平方根,用墨来表示。其计算公式为:在多元回归分析中,当F检验表明线性关系显著时,而部分回归系数的t检验却不显著,这意味着()。[浙江工商大学2012研]A,不显著的回归系数所对应的自变量对因变量的影响不显著B.所有的自变量对因变量的影响都不显著C.模型中可能存在多重共线性D.整个回归模型的线性关系不显著【答案】C【解析】如果出现下列情况,暗示存在多重共线性:①模型中各对自变量之间显著相关;②当模型的线性关系检验(F检验)显著时,几乎所有回归系数月的t检验却不显著;③回归系数的正负号与预期的相反。某种产品的单位成本ッ‘(元/件)对产量x(千件)的回归方程为f'=90-0.5x,其中“-0.5”的意义是()。[中央财经大学2012研]A.产量每增加1千件,单位成本下降0.5元B.产量每增加1千件,单位成本平均下降0.5元C.产量每增加1千件,单位成本下降50%D,产量每增加1千件,单位成本平均下降50%【答案】B【解析】一元线性回归方程的形式为:ど(ツ')=同+月》,其中用是回归直线在ア轴上的截距,是当x=0时ン’的期望值;才是直线的斜率,它表示当X每变动ー个单位时,>’的平均变动值。题中直线的斜率旦=~06,它表示当产量每增加1千件时,单位成本下降0.5元。

227以下统计方法中,哪ー种不能用来研究变量之间的关系?()[中山大学2()11研]A.样本比例估计B.列联表分析C.一元线性回归D.多元线性回归【答案】A【解析】列联分析也称为独立性检验,是分析两个变量之间是否有关联;回归分析则侧重于考察变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另ー个特定变量(因变量)的影响程度:样本比例估计是用样本比例P估计总体比例だ,不能用来研究变量之间的关系。若物价上涨,商品的需求量相应减少,则物价与商品需求量之间的关系为()。[江苏大学2009研]A.不相关B.负相关C.正相关D.复相关【答案】B【解析】物价上涨,商品的需求量相应减少,二者变化方向相反,从而为负相关。在多元线性回归方程f=ち+毎甬+ちセ+…+”看中,回归系数b,(i—1,2,«..,k)表()〇A.自变量改变动ー个单位时,因变量y的平均变动额为b.B・其他变量不变,自变量Xi变动ー个单位时,因变量y的平均变动额为b.C.其他变量不变,自变量K变动ー个单位时,因变量y的总变动额为b;D,因变量ル变动ー个单位时,自变量%的变动总额为b,【答案】B【解析】回归系数b,(i=1,2,...,k)称为偏回归系数,其表示其他变量不变,自变量ル变动ー个单位时,因变量y的平均变动额为セ。关于多元线性回归模型的说法,正确的是()。A.如果模型的R4艮高,可以认为此模型的质量较好B.如果模型的R,很低,可以认为此模型的质量较差C.如果某ー参数不能通过显著性检验,应该剔除该解释变量

228D.如果某ー参数不能通过显著性检验,不应该随便剔除该解释变量【答案】D【解析】多重判定系数Rユ反映了在因变量的变差中被估计的回归方程所解释的比例。当自变量的个数增加时,即使这个自变量在统计上并不显著,Rユ也会变大,所以不能通过R,的高低来反映模型拟合的好坏,应该采用调整的多重判定系数だ。|一元线性回归模型yi邛。+|3区+内的残差平方和SSE=1()(),样本容量n=27,则回归模型的方差ザ的无偏估计量为()。A.4.00B.4.17C.4.25D.5.00【答案】Aボ»;100-【解析】ザ的无偏估计量n-227-2。在多元回归中,回归平方和是指()。A.(,づドB.蜘ー却2c,去无ー刃’D.耳ン;ーア)リ(え一1)【答案】C【解析】A项为总平方和,记为SST;B项为残差平方和,记为SSE;C项为回归平方和,记为SSR。三者之间的关系为:SST=SSR+SSE。在k元回归中,n为样本容量,SSE为残差平方和,SSR为回归平方和,则对回归方程线性关系的显著性进行检验时构造的F统计量为()。SSRA,義:SSEB.~SSfSSRkcSSE

229-k-r)

230]__SSRk_d.ssr/(M-jt-i)【答案】c【解析】对回归方程线性关系的显著性进行检验的步骤为:①提出假设:Ho:。尸。2ラ..=£<=0,Hi:。|,仇,…,月至少有一个不等于〇。_SSR'k_SSE/(n-k-V)-F(k,n-k-1)②计算检验的统计量F:③作出统计决策:若F>2,则拒绝原假设;若F<月,则不拒绝原假设。某ー多元线性回归模型有3个自变量,但其中两个自变量的相关系数达0.9,此现象为(A,同方差B.异方差C.自相关D.多重共线性【答案】D【解析】多重共线性检验是通过计算各个变量之间的相关系数来确定是否存在多重共线性,题中的两个自变量的相关系数达到0.9,说明存在高度的多重共线性。可决系数R2()〇A.是对相关关系显著性检验所运用的统计量B.是衡量回归模型的拟合优良程度的指标C.其定义是在回归模型为非线性模型、回归系数是用最小平方法下给出D.其定义是在回归模型为线性模型、回归系数是用极大似然估计法下给出的【答案】B【解析】可决系数是衡量自变量对因变量变动解释程度的指标,它取决于回归方程所解释的y的总离差的百分比。可决系数的计算公式为:D:_回归离差_S(x,-x)G7-y)息隅差3工(ホー・厂セ(>1つア可决系数Rユ越大,模型拟合的越好,其定义是在回归模型为线性模型、回归系数是用最小二

231乘估计法下给出的。二、简答题试述使用普通最小二乘法估计线性回归模型时需要的基本假设。[中央财经大学2014研]答:普通最小二乘法是使因变量的观察值エ与估计值我之间的离差平方和达到最小来估计ガ。和舟的方法。为了对回归估计进行有效地解释,必须对随机扰动项ス和解释变量エ进行科学的抽象即假定,这些假定称为线性回归模型的基本假定。主要有以下几个方面:(1)因变量y与自变量x之间具有线性关系。(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。(3)零均值假定:EQ,)=°¢=12…,〃)随机扰动项”可正可负,发生的概率大致相同。平均地看,这些随机扰动项有互相抵消的趋势。(4)同方差假定:、,业)=七ル;一七ルガ=目ル”=グ(i=1,2,•••.»)这个假定表明,对每个正,随机扰动项外的方差等于ー个常数び,(5)误差项£是ー个服从正态分布的随机变量,且独立,即£~N(0I〇〇(6)解释变量与扰动项不相关假定:8V(エメ;)=°(7)解释变量之间不是完全线性相关的,称无完全多重共线性。简述回归分析中判定系数的计算及其含义,回归估计标准误的计算及其含义。[浙江工商大学2012研]宀理=スエー2=「竺,T):SST的:-がユ5;一刃:答:回归平方和占总平方和的比例称为判定系数,记为R2,其计算公式为:回归估计标准误就是度量各实际观测点在直线周围的散布状况的ー个统计量,说明实际值与其估计值之间差异程度的指标,它是均方残差。相)的平方根,用ケ来表示,其计算公式为:什么是多重共线性?产生多重共线性的经济背景是什么?多重共线性的危害是什么?检验多重共线性的方法思路是什么?[南京大学2009研复试]答:(1)当回归模型中有两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。(2)产生多重共线性的经济背景是:

232①趋同性,经济变量随时间的变化过程,存在共同变化趋势;②用截面数据建模时也容易产生共线性;③模型中大量地采用滞后变量也易产生多重共线性;④建模时由于认识的局限性,也易产生多重共线性。(3)在回归模型中存在多重共线性时,会产生以下危害:①变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途;②多重共线性可能对参数估计值的正负号产生影响,特别是回归系数的正负号有可能同预期的正负号相反。(4)检验多重共线性的方法思路有:①将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关;②如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数S进行检验;对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。回归系数和相关系数有何关系?试以数学公式表示。[江西财经大学2006研]答:相关系数r与回归系数6的正负号是相同的。相关系数的计算公式为:Jqx,tzx厂gzジー(»サ,人〃汇xvーabZi'回归系数区的计算公式为:ー陸上(Z二所以屮!>>(2>ア。说明回归模型的假设以及当这些假设不成立时的应对方法。[中国人民大学2006研]答:(1)多元回归模型的基本假定有:①自变量セ,七,…,xと是非随机的、固定的,且相互之间互不相关(无多重共线性);②误差项£是ー个期望值为〇的随机变量,即E(£)=°;③对于自变量再,ム,…,工的所有值,£的方差ア都相同,且不存在序列相关,即—明:;④误差项£是一个服从正态分布的随机变量,且相互独立,即£2(°,びう。

233(2)若模型中存在多重共线性时,即ム,そ,…,入有成对自变量显著相关,解决的方法有:第一,将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。第二,如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数S进行检验;对因变量Y值的推断(估计或预测)限定在自变量样本值的范围内。若模型中存在序列相关时,即。3(£いら)*解决的方法有:如果误差项£不是相互独立的,则说明回归模型存在序列相关性,这时首先要查明序列相关产生的原因〇如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的自变量,则应增加自变量;如果以上两种方法都不能消除序列相关性,则需采用迭代法、差分法等方法处理。若模型中存在异方差性时,即cov(叫号)エびセ=/),解决的方法有:当存在异方差性时,普通最小二乘估计不再具有最小方差线性估计的性质,而加权最小二乘估计则可以改进估计的性质。加权最小二乘估计对误差项方差小的项加一个大的权数,对误差项方差大的项加一个小的权数,因此加强了小方差性的地位,使离差平方和中各项的作用相同。三、计算题某市居民的货币收入和购买消费品支出资料如表7-3所示。表7-3—货币收入(亿元)消费支出(亿元)年份2006200720082009201020122013101215172024287101114151820

234根据上述资料:(1)计算货币收入与购买消费品支出的相关系数。(2)说明用普通最小二乘法估计回归系数的基本原理。(3)计算根据货币收入预测消费支出的线性回归方程,说明回归系数的含义。(4)计算回归方程的决定系数(判定系数)。(5)当货币收入达到30亿元时,预测消费品支出额的估计值。[中央财经大学2014研]解:(1)记货币收入为x(亿元),消费支出为ぎ(亿元),”为年数,等于7。ー二え]辛か二者相关系数屁丿マと»ー(士ンザ,其中E>=126,1>=95,エザ=1885,£¢=2518,V/=1415,则7x1885-126x95r=/~;=0.99V7x2518-126:-V7x1415-95:⑵OLS基本原理:用各个离差的平方和。江(スー%)=シ五ー向一反)最小来保证所拟合方程的总误差很小。解方程组=0,整理得.=02贴=&2る+&エ耳,解出回归系数估计量る瓦这物-Zに必(3)由(2)7x1885-126x95ヘー-=0.77x2518-126?I077,则货币收入对消费支出的预测方程为j=0.97+0.7xo回归系数6=。フ表示货币收入每增加1亿元,消费支出平均增加0.7亿元;A在数学意义上来说表示当货币收入为〇时消费支出为0.97亿元,但经济意义上没有实际意义。(4)回归方程的决定系数如表フ-4所示。表7・4year货币收入X(亿元)消费支出ア(亿元)预测消费支出(亿元)

23520062007200820092010201220131012151720242871011141518207.979.3711.4712.8714.9717.7720.57ガヨ=正正=以=0.97判定系数£(乂づ)1257(5)当x=30时,ナ=0.97+0.7x30=21.97(亿元),即消费品支出额的估计值为21.97亿元。研究品牌服装销售额与销售人员数量及商店营业面积之间的关系,希望建立回归模型:ァ期+期+c+e,假设e服从バゆ门,设观察数据为(几ハ,ム)次=12•••咒(1)求参数a,b,c的最小二乘估计不ル,及其分布。1818Y=783,Xx=25,匕=6.6,=12600,=800,Z7(2)若由观察值算出如下数据:1S181818yr;=116000〇.>XUX^=3OOO,22X占=36300〇.y区ふ=93000UIk-lUIi-1求出回归方程,并给出其拟合度。[华东师范大学2013研]工e;=y(匕ー匕,=y田ぐ一邮「bx2i\解:(1)利用最小二乘估计,即保证占zZ,取到最小值,根据极值存在条件,应该有:

236二^ゼ{居ぐー说Rハ)=0ccayA-4^=-2Z(レー[一也-bXQXt=0ca=-2汇(匕ー<?ー诅ーbX2i)X2i=0cbへ(汇お再排七七)」(工八知)(工工%)(一一)(エ名)-(エそ田上)Z_(2"るJi汇冷)-(%)(二エ&丿(Z-)(N且)-(Z知%)c=yー乎-0X2故可得:又因为普通最小二乘估计量a也c分别是4的线性组合,因此,ahc的概率分布取决于Y的分布特征。在e~N(°,が)的假设下,Y是正态分布,则と也C也服从正态分布。Var(a)Var&(考士)戸(Z元)〇わー(Zq丁(タおぎ(2>ixZ£)-(2?ドユ):TA—/-,Jハ1乙Xユーハとモ一ー廿:乙"X"蒋:(ズ(2X)(2X)ー名舒下”其中:①さガa~N(cl,_J宀,-'(2XxZ0)-(・バカ且£(a)=aE(b)=瓦E«)=c,故d也c的分布分别为:

237‘(tx£Xt0)一(£x“xス『…ズーだ近苏右ぶi)y=10.6X1+76.7AI+13.1(2)将题中所给的数值代入到ム也,中,求得ら706ハア6.7,2=13.1,则回归方程为:次ス+%+可=素+»マ4+应‘+2えダ"%+2acVみ+温工%=11366964篦竺£=圭匸竺拟和优度的公式为:ー冰とGi-£):,其中:fヌ宣=ZkI风+%+cj=^S再卩ス+セE贝=11165531故拟和优度为:=0.99276が_ESS_工(ぬール)匚-22>/+エデー森"ー」(”』)'研究人员估计了两个回归模型,相关结果如下。[中央财经大学2010研]慑キR调能的R方估计标准误1‘977,.954,953206.712表7-5模型1表7-6预测变量:(常量),性别,收入

238根里步标准化系数tSig.B标准误片1(常收入性别628.056.61931.06247.157.01142.10013.31841.107.733.000.000.466校・R倜整R方估计标准881.977-.954.954206.2:表7-7模型2根環イ标准化系数1Sig.B标准设彳1(常イ)收入639.961.621II.164.01411.49045.155.000.000表7-8预测变量:(常量),收入(1)根据表中的数据比较两个模型的拟合效果,并对t检验的结果进行分析。(2)在以上两个模型中,你会选择哪ー个模型进行预测?为什么?(3)写出你选定的回归方程,并分析回归系数的含义。(4)一名男性职エ上月收入为3000元,预测其支出。解:(1)根据已知数据,模型1的调整判定系数为0.953,模型2的调整判定系数为0.954,二者近似相等,所以从判定系数角度看两个模型的拟合效果是ー样的。由于表中关于收入的t统计量的p值都为0.0()(),所以收入对于支出的影响是显著的;而在模型1中,关于性别的t统计量的p值为0.466,大于一般情况下给定的显著性水平,故该变量对支出的影响不显著。(2)由(1)中的分析,模型1中的“性别”变量没有通过t检验,并且在模型2的基础上去掉该变量未使估计标准误差明显的减少,因此可以判定,应选择模型2进行预测。(3)设y表示支出,x表示收入,则选定的回归方程为:;=639,961+0.621xo回归系数自=0621表示,收入每增加1个单位,支出平均增加0.621个单位。(4)当x=3000时,

239y=639.961+0.621X3000=2502.96I0即当该名男性职エ上月收入为3000元时,其支出为2503元。研究人员通过随机调査取得了50名从业人员的月收入和月消费支出数据。用Excel进行回归分析(支出为因变量,收入为自变量),部分结果如表7-9和表7-10所示。回归统计RSquare().9188AdjustedRSquare0.9171标准误并:229.1852观渕值50表7-9Coefficients怀碓次若一tStat_PvalueIntercept191.9182.042.340.0235收入0,620.0323.300.0000表7-10(1)计算收入和支出的相关系数。(2)根据本题的经济意义,对收入进行t检验时应该进行单侧检验还是双侧检验?写出零假设和备择假设。根据Excel的计算结果,如果a=0.01,检验的结论如何?(3)写出回归方程的表达式,说明回归系数的含义,并计算月收入为3000元时的平均支出。[中央财经大学2009研]解:(1)一元线性回归中,回归系数为正数,所以收入和支出之间存在正相关关系。则r=而=VO-9188=0.9585(2)根据本题的经济意义,考察的是收入与支出之间的关系,即随着收入的增加,支出是否也会增加。所以对收入进行t检验时,应进行右侧检验。零假设与备择假设分别为:自代网>0H,):,H.:由Excel计算结果可知,回归系数以为正数,从而检验统计量

240L且>。ヮ〇又因为在进行双侧检验时,P-value=0.0000

241(3)分析方程的拟合效果。研究者能否利用这一方程预测居民的医疗支出?如果不能,应如何改进模型?[中央财经2007研复试]解:(1)回归方程为:夕=一5.9662+0.2257ス。(2)由于回归系数对应的pー值=0.000()<a=0.05,因此在5%的显著性水平下年龄变量的回归系数显著不为〇。t统计量的自由度为1348-2=1346,所以p值=凶(1346)〉9&61)(3)判定系数十测度了回归直线对观测数据的拟合程度,由于居民的医疗支出与其年龄的判定系数*=0.0647,调整的判定系数段=0.0640,拟合程度非常低,因此,研究者不能利用这一方程预测居民的医疗支出。由以上分析知年龄与居民医疗支出之间不存在显著的线性关系,但可能存在其他的曲线关系。所以可以先绘制出年龄与医疗支出之间的散点图,从中判定出两者之间的大致趋势,进而选择较好的模型进行预测。设人均收入X为自变量,人均消费丫为因变量。现根据某地12个住户的有关资料计算出以下数据:(单位:元)工(ーテ114一了|=334229.09Z(サ对=425053.73,二板,Z(エージ=262855.25,f=549gj要求:(1)拟合简单线性回归方程,并解释方程中回归系数的经济意义;(2)计算可决系数和回归估计的标准误差:(3)对X的回归系数进行显著性检验(显著性水平为〇.05,tow,(10)=2.228);(4)假定人均收入为800元,利用拟合的回归方程预测相应的人均消费水平,并给出置信度为95%的预测区间。a=Y-(3X=549.8-0.7863x647.88=40.372解:(1)由最小二乘法,員Z(工ーか(乂-万ー334229.09p==工区ーか425053.73=0.7863

2427=40.372+0.7863^简单线性回归方程为:ガ=0.7863表示当人均收入增加1元时,人均消费平均增加0.7863元。a=40.372表示当人均收入是〇时,人均消费平均为40.372元。R2=(汇(匕-アXX-アガ334229.09,Z(スーア)2Z(工-Y)2425053.73x262855.2599.98%(2)可决系数为:SSTxQ-R2)n-2戶62855.25x0.02%ヽ10SSR由SST=SSR+SSE,R=SW可得,SSE=SSTx(1-R0〇因此回归估计的标准误差为:H:邙=0月、邙轨(3)提出假设:/~~-=0.003512V425053.73计算检验的统计量t:

24380.7863…8t=—==223.895.0.003512由于f=223.89〉%皿(1°)=2.228,所以拒绝原假设,即认为X的回归系数显著不为〇。(4)坐ム=800时,Y.=40.372+0.7863x800=669.4(元)。对于给定的X。,丫的ー个个别值丫。在95%的置信水平下的预测区间可表示为:+1+ビ。=669.4±2.228x2.29xjl+—+12425053.73所以置信度为95%的预测区间是(俛,0,674,8レ

244第八章非参数检验8.I复习笔记ー、非参数检验概述非参数检验的定义非参数检验,又被称为自由分布检验,它是ー种不需要事先对总体分布的形状加以限制而进行的假设检验。2.非参数检验的优缺点(1)优点①检验条件比较宽松,适应性强。②自由分布检验的方法比较灵活,用途广泛。③自由分布检验的计算相对简单。(2)缺点它对原始数据中包含的信息利用得不够充分,检验的功效相对较弱。当总体分布形式已知时,基于这种分布类型的参数方法,一般说来比非参数方法更佳。二、符号检验与符秩检验单总体问题的符号检验(1)适用范围单总体符号检验适用于检验总体中位数是否在某一指定位置。(2)基本思想单总体符号检验的基本思想:将总体中位数记作ク,另给一指定数值依,原假设是宀:"飞。若原假设ワ=%为真,则总体中任一观察值大于(或小于)ワ。的概率是0=0.5。将%从总体的每个观察值中减去,并记录这个差数的符号(差数为0时略去不计),可建立一个由正号和负号组成的总体。对这样的总体进行独立重复贝努里试验,每次试验出现正号的概率是。=°6。容量为〃的样本中

245是指正差数的个数与负差数的个数之和,不含〇差数),正号个数。服从参数为(〃⑶的二项分布,其期望值为ス”)=〃0=05”,方差为V(y)=«p(l-p)=0.25n假若样本中正号与负号的数目大体相等,这时没有理由拒绝原假设;如果出现了太少的正号,认为样本可能来自中位数小于ワ。的总体;如果出现了太多的正号,认为样本可能来自中位数大于あ的总体。7025^因为v近似服从正态分布,将其标准化为标准正态变量,作为检验统计量。即事实上,ヮ。与这两个原假设是等价的。对于后者,可以用检验统计量Z=〜N(0,1),0.25ル。式中:尸=必〃是样本中正号的个数占正负号总数的比例。2.两总体问题的符号检验两总体符号检验适用于检验配对样本情形下,两总体分布在位置特征上是否有差异。配对样本,是指对每ー个观测单元(个体)作两次观测。应用两总体符号检验时,可以给出配对样本中每ー单位的两次观测结果,也可以只给出两次观测的差别一升(+)、降(-)、无变化(。)。3.威尔科克森配对符号秩检验当配对观测之间的差别可以从数量上来测定时,威尔科克森(Wilcoxon)配对符号秩检验比符号检验更有效。具体做法如下:(1)将样本配对观测之间的差4=レーW按其绝对值ビ』大小递增排列,并从1至〃给以秩次。(2)对每个秩次按照《的正负号赋以正负号。(3)分别对正号秩与负号秩计算秩和,所得之秩和不带正负号,记作エ秩(+)与Z秩(-)。为检验两总体平均水平是否有差异,可建立下列原假设Ho:z秩(+)=z秩(-)在原假设成立的前提下,威尔科克森T统计量的数学期望和方差分别是

246*)=叩)=24当“225时(n是正负号的总数,不包括0差值项数),威尔科克森T统计量近似服从正态分布。这时,T-E(T)可构造z统计量*")。若〃不够大,ア的临界值可由附表6来确定。该表所给出的是,对一定的〃和即满足关系式ア(7<乙)4a的,值。在单尾检验时若ア’エ,在双尾检验时若ア“&:就拒绝原假设。三、秩和检验与ズ检验1,秩和检验秩和检验可用于检验两个独立样本是否来自具有相同位置特征的总体。这里要求两个总体具有相同的分布形状(不论是何种分布形状)。设从两个总体中分别抽取容量为均和叱的独立随机样本。把样本容量较小的总体叫做总体1,如果两样本容量相等,就任意把其中的一个叫做总体1。即,"内。设ス和%分别是总体1和总体2的中位数。将两个样本混合起来,共有"=9+〃:个观察值。把它们按递增顺序排列起来,依次赋以1,2,,〃的秩次。如果混合样本中有若干个相同的数值,则将它们所在位置的秩简单算术平均,用所得的均值作为这些数值的秩。用ア表示来自总体1的巧个观察值在混合样本序中秩次之和。丁的最小可靠值是1+,+...+ね=业色,ハ,、、,ヽ・"2;最大可能值是(グ1)+(ム+2)+…+(グ〃!)=〃!〃:+々(%+1)2,如果总体1的分布位于总体2的右边(”>た),W将接近它的最大可能值;如果总体1的分布位于总体2的左边(ルく小),W将接近它的最小可能值;如果两个总体分布位置相同(%=小),甲将等于中间值,即最大可能值ー最小可能值秩和检验的原假设是“び%=小。下面建立检验统计量。(1)如果力和均都超过10。

247这时,在原假设成立的前提下,旷近似服从正态分布。数学期望和方差分别是F(甲)—"1%("1+み+1)于是,jr-£(F)可以将甲化成标准正态变量・‘⑺〜N(〇」)(2)如果巧和内都未超过10。这时,在原假设成立的前提下,甲的分布中的临界值可查表确定。表中列出了样本量为々、叼时,P(WW2)=0.05以及P(WW2)=0.025的临界值W>W2o当WgWi和W*V2时,拒绝原假设(W为样本值)。2.皮尔逊Z’ー统计量,,.<(实际频数理论频数)”"ル{"-统计学家卡尔.皮尔逊(K.Pearson)提出如下检验统计量并且它近似服从自由度为u=组格数一估计参数个数一1的デー分布。式中,n是样本量,理论频数是由样本量乘以由理论分布确定的组格概率计算的。求和项数为组格数目。应用皮尔逊ス’ー统计量时要注意下列问题。(1)当〃充分大时,デ⑺近似服从ズー分布,因此,皮尔逊ガ⑻统计量要在大样本的情形下应用。(2)各组格的理论频数不应太小。一般,每ー组格的理论频数都不应小于4,否则应将小于4的组并入其他组。但是,具体应用时这一限制可以放宽:①若自由度不小于60,则可以不加限制;②若自由度不小于6,则个别理论频数不得小于0.5即可:③若自由度等于2,则各理论频数不应小于2;④若自由度等于1,则各理论频数不应小于4。3.分布拟合检验分布拟合检验的基本思想:(1)对样本数据作分组整理,计算各组的频率,称所得到的分布列为经验分布;(2)根据有关理论和实际知识以及经验分布的特点,猜测无限总体的分布符合某种概率模型,称所选择的概率模型为理论分布;(3)用显著性检验的方法,将经验分布与理论分布作比较,检验观察到的差异能否显著地表明两种分布的真实差异存在,如果表明真实差异存在的证据不足,则可以期望所选理论分布能较好地描述所研究的无限总体的分布规律。

248四、等级相关检验斯皮尔曼等级相关系数设对简单随机样本的〃个单位,就变量x、丫进行观察。要求x、y的取值分别都是1,2,...,〃这样行个等级;样本的"个单位分别不重复地属于オ的各个等级,也分别不重复地属于丫的各个等级,没有两个单位取相同等级的情形。记4匕二1—y一■—为第i个样本单位属于x的等级与属于y的等级的级差。斯皮尔曼等级相关系数U为样本等级相关系数的取值范围是,"当り=1时,说明样本等级资料完全正相关;当なニー1时,说明样本等级资料完全负相关:当ら=°时,说明样本等级资料不相关;当〇く!"时。ネ越接近1,正相关程度越高;当T<ら<0时,ネ越接近一1,负相关程度越高。2.斯皮尔曼等级相关系数旳统计检验检验的原假设是H:P:=0或旦’臧スと°),备择假设是兄:2n〇國。:>〇:或■<0)。基本原假设4。:2=°的含义是按两种统计标志オ、,划分的两种等级不相关。在样本量〃较小时(如〃430),"。:ス=°成立的前提下,检验统计量"的aァ也I邛-a水平单侧临界值,可由附表查出,它是满足下列条件的最小,值在样本量〃较大时(如〃>30),%:2=°成立的前提下,U似服从正态分布ー'ー0,\Z—r.lA-Ar(O,l)“ー】丿。因此,检验统计量,/V〃ー1'ノ3.两点说明(1)等级相关检验适用于变量值表现为等级的变量。运用等级相关检验的理由:①无法假定总体的分布;②其中有一个变量是只能用等级来反映的;③把测量值划分为等级更能反映事物的本质。把测量值转换为等级的方法是;首先,按实际观察值大小排序,并赋予每个观察值秩次;

249其次,把测量值的取值范围划分为若干等级区间。(2)斯皮尔曼等级相关系数是以变量没有相同等级为前提的。

2508.2课后习题详解ー、计算题从ー批交通诉讼案中,简单随机抽取13起案例。各案赔偿原告的数量如表8-1所示。5.25.513.03.812.58.32.11.720.04.86.910.6表8-1试用符号检验法检验各案赔偿数量的总体中位数是否为7.5。(显著水平0.01)解:(1)提出假设:Ho:ク=工5H,:ワエ(2)构造检验统计量并计算样本观测值V-0.5M5-0.5X12cvrr,く,=.—=-0.57)35z=加.25”4.25x12(3)确定临界值和拒绝域Zo.oos=2.575...拒绝域为(-®.-2-575]U[2.575,-kc)(4)做出检验决策,.,团=o.57735

251代表味道最差。经过蒙目品尝,打分结果如表8-2所示。表8-2

252甲品牌得分ー乙品牌得分之差的符号品洒人人数+35一15010合计60试用符号检验法检验,乙品牌啤酒是否比甲品牌啤酒更受欢迎。(显著水平0.025)解:我们对这两种饮料的评分作出没有差异的原假设。如果原假设成立,那么正号和负号的个数就应大体相等。如果其中一种符号出现次数明显居多,就拒绝原假设。令P表示得到正号的概率,则这ー假设可表述为:Ho:p=0.5,HupRO.5如前所述,符号为“〇’’的个数应从样本中剔除,因此,用于检验的符号个数由35个“+”号和15个“-'’号所构成。这ー问题类似于:抛掷一枚硬币50次,出现35次正面,15次反面,我们想检验“硬币是均匀的''这一假设。对于上述问题,从理论上说应该使用二项分布来处理。但是,由于此例的样本容量大于25,所以,可用正态近似处理。作为成数指标,则该抽样分布的均值和标准差分别为:.%=P=05,さ八片-设定显著性水平a=005。如果z<-1.96或-35:-'P~Pz>L96,拒绝原假设。本例中观察到的“+”号的比率。=而,于是有:SP。由于z=2.82>1.96,所以拒绝原假设Ho,接受备择假设Hi,也即乙品牌的啤酒比甲品牌的啤酒更受欢迎。如果直接用ダ面不用z值来计算临界值,结果相同。本例中P的临界值分别为:P+1.96sp=050+1.96x0.071=0.639P-1.96sア=0.50-1.96x0.071=0.361由于观察到的P值为0.70,在0.361〜0.639的范围之外,因此拒绝H。。某洗涤剂厂对其产品覆盖的全部10个地区,观测各地区实行某种广告宣传前后的月销售量如表8-3所示。

253各地区月用件V(千公斤)A・BCDEFGH1J广告宣传的22161532181015251719广吿宣传后30191328171017281614试用威尔科克森配对符号秩检验法检验,进行广告宣传是否扩大了月销售量。(显著水平0.05)解:建立原假设,即假设广告宣传前后月销售量没有显著差异,由于排为第1等级和第2等级的两项相同,因此将这两项按位序的平均数(1+2)/2=1.5排列;排为第3等级和第4等级的两项相同,因此将这两项按位序的平均数(3+4)/2=3.5排列;排为第5等级和第6等级的两项相同,因此将这两项按位序的平均数(5+6)/2=5.5排列。威尔科克森带符号检验的计算过程如表8-4所示。表8-4威尔科克森带符号检验的计算过程—做广告前销售量XI做广告后销售量X2销售量之差d=Xi-X2|d|等级T.T-编号95.53.571.51.58123456221615321810301913281710-8-32410-2-3153.571.595.53.55.57891015251719172816143.55.51.58合计—————21.523.5n=9<25,并且为单侧检验,查表可得T0.m=8,由于T+=21.5>Tm8,不能否定原假设,即做广告前后销量没有差异。从某专业学生中简单随机抽取30人,请他们对两门必修课的喜欢程度评分,可选分数从1到10,以10分为最高。下面的每ー对数据是同一个学生对两门课的评分。试用符号检验法检验,学生们对两门课程的喜欢程度是否差不多。(显著水平0.05)甲课程843399987467797乙课程3846645107768759甲课程1048978552835477乙课程458259569978529

254解:汇总对两门必修课的喜欢程度评定等级:“+”号为10个,“一”号为16个,“〇”号为4个,总计为30个,剔除符号为“〇”的个数,用于检验的符号个数由10个“+”号和16个“一”号构成。对两门两门必修课的喜欢程度作出没有差异的原假设。如果原假设成立,那么正号和负号的个数就应大体相等。如果其中一种符号出现次数明显居多,就拒绝原假设。令p表示得到正号的概率,则这ー假设可表述为:Hu:p=0.5,H,:p#).5。由于样本容量大于25,所以,可用正态近似处理。作为成数指标,则该抽样分布的均值和标准差分别为:卩产p=0.5XFp)_/Q.5(l-0.5)=0.098显著性水平a=0.05。如果zくー1.96或z>1.96,即IzI>1.96时,则拒绝原假设。~10观察到的“+”号的比率'26=0.385,于是有:ルーp_0.385-0.5Z0.098=-1.17由于IzI=1.17<1.96,所以不能拒绝原假设H。,即可认为学生对两门必修课的喜欢程度没有差异。某装配车间想要测定早班和中班组装一件产品的时间有无差别。随机抽取了9天早班记录和10天中班记录进行比较,早班9天的记录为:45、3340、4745、42、41、39、28(分);中班10天的记录为:49、34、52、40、46、41、48、44、42、43(分)。要求用秩和检验法对两班的组装效率有无差异作出统计结论。(显著水平0.10)解:原假设和备择假设分别为:Ho:两班的组装效率无差异H,:两班的组装效率有差异将两个样本的19个观测值合并按递增顺序排列(早班的观测值及其秩用黑体),然后赋秩,如表8-6所示。

255秩12345.55.57.57.59.59.5顺序号111213141516171819观测值434445464647484952秩11121314.514.516171819由表可知,际0=1+2+4+5.5+7.5+9.5+13+14.5+16=73。对于〇=〇」〇,m=9,»=10,由附表知”(9,10)=69二“ofぜm9J0)=180-69=111由于/」:二凸介于69和111之间,可见两班的组装效率无差异。从两个行业中分别简单随机抽取14个工厂和15个エ厂。这些エ厂上年的资金占用水平如下(单位:10万元)。行业甲:33.3,18,38.7,48,52,30,38.4,42,25,44,36,51,35,40:行业乙:46,17,24.6,24.3,37.8,39,14,23,33.8,37.1,45,13,27,21,31〇假定两个行业资金占用水平分布形状相同,试按0.05的显著水平,双尾检验,使用秩和检验法,检验”两个行业中的资金占用水平中位数没有差别’’的原假设。解:建立检验假设:Hn:两个行业中的资金占用水平中位数没有差别H.:两个行业中的资金占用水平中位数有差别把两样本数据混合从小到大编秩,求各组秩和,结果如表8-7所示。表8-7甲工厂乙エ厂资金占用水平秩次资金占用水平秩次184142259173301121533.313236351524.37361624.6S38.419271038.7203112402233.814422337.117442437.8184827392151284525

25652294626131ni=141=26002=15T:=175检验统计量T=D=260,查T界值表可得pvo.oi,因此,在显著性水平0.05下拒绝原假设,即认为两个行业中的资金占用水平中位数有差别。从某地区2004年新生男婴总体中简单随机放还地抽取了50名,测量他们的体重如下(单2520.298〇•3160.3100.3700.3700.3460.3340.2500.3540.2600.3320.310〇•3460.3280,2880.312〇•3400.2740.3060.3120.3800.2900.2420.3700.3460.3280.3100.3500.1600.3740.2940.3580.298〇,2940.3300.2980.3480-2960.2900.460〇.2780.3220.3060.334〇.250〇.3400.2680,3300.3640,位:克)试以显著水平a=0.05检验新生男婴体重是否服从正态分布。解:(1)提出假设:Ho:新生男婴体重服从正态分布H,:新生男婴体重不服从正态分布—、ー—x(2)计算样本均值与样本标准差:y=nとy=50158160=3163.2(克)口(y-ガS=Vn-1=465.52(克)(3)列表8-8表8-8体重分组实际频数(人数)V,标准化组限z=原组织ー¥S概率Pi理论频数E=n-P«(Vi-Ei)2Ei组号-00〜2450-〇〇〜-1.53-0.06303.150.41982450—27001.53--0.995-0.09574.7850.00971232700-2950つぐワ1ク0.995--0.46-0.16418.2050.17704562950-3200Z3/1Z1AQ0.46-0.080.209110.4550.228373200-34501U〇〇0.08〜0.620.200510.0250.00013450—37000.62—1.150.14257.1250.10753700—+001.15〜+000.12516.2550.0104合计—n=50—1.0000500.9528(4)构造检验统计量并计算样本观测值

257ラ(Vi-Ei)2石50)=i_iEi=0.9528(5)确定临界值和拒绝域自由度721=4,(4)=9.488拒绝域为:[9.488,+®)(6)做出检验决策Z(so)=0,9528

258解:表8-11等级排序4=モー科d;=(%ー必ア销售额Xi股票红利y461227191138510749385111216210-323-1-1-4-2-122309491116414490合计62建立如下假设:H(1:2=°(即总销售额和股票红利独立)H,:P,«〇(即总销售额和股票红利具有相关关系)籌・一/3计算等级相关系数为:=0.05的显著性水平,查相关系数检验表得临界值为0.4965。こ=68>临界值=04965,故拒绝原假设H“,接受备择假设H”也即总销售额和股票红利具有相关关系。二、证明题试证明,斯皮尔曼等级相关系数是第七章介绍的样本相关系数的特例。证:»Z区ーア加一円一般的样本相关系数的公式是:在人一•斤エ门一门,若K改为等级变量值&,ス改为等级变量值,,则等级相关系数为:

259と园—亮0-S)’业(凡ーおエ①同(1)其中,鸟和$(i=l,2,...,n)均不重不漏地取1,2,...»n等n个数值。因此E(4ーが=工区-ザ=ZR;-H肝Rードー1+2+…ー〃1マ2~'把这两个结果代入式(1)得到(2)记ス=&-ョ,则Zd;=Z(&-Sj:=ZR;-ES”2E监ZR,S=鼻ア+ZS;|=ゆー1)(2"1)_2め将其代入式(2)得到r-6.24s而二Ll_fdj

26012=M(M2-1)证毕。

2618.3考研真题与典型习题详解ー、选择题卡方检验应用非常广泛,特别是处理分类数据检验问题。这一方法是英国统计学家()于1900年提出的。[华东师范大学2014研]A.K.PearsonB.R.A.FisherC.M.G.KendallD.F.Galton【答案】A【解析】卡方检验是英国统计学家皮尔逊于1900年提出的。检验ー个总体是否服从Poisson分布,可通过以下哪种检验方法实现?()[华东师范大学2014研]A.卡方检验B,正态概率纸C,列联表检验D.方差齐性检验【答案】A【解析】卡方拟合优度检验可用于检验总体是否服从某个指定的分布;正态概率纸用于检验总体是否服从正态分布;列联表检验一般用于检验两变量的独立性;方差齐性检验用于检查不同样本的总体方差是否相同。单因素方差分析中,以下哪种情形宜考虑非参数Kruskal-Wallis检验?()[中山大学2012研]A,各组总体方差不等B.各组样本容量不等C.各组总体服从正态分布D.各组总体不服从正态分布【答案】D【解析】Kruskal-Wallis检验是以确定k组样本是否来自同一总体为检验目的的检验,其基本思想是:首先,将多组样本数据混合并按升序排序,求出各变量值的秩;然后,考察各组秩的均值是否存在显著差异。容易理解:如果各组秩的均值不存在显著差异,则是多组数据充分混合、数值相差不大的结果,可以认为多个总体的分布无显著差异;反之,如果各组秩的均值存在显著差异,则是多组数据无法混合、某些组的数值普遍偏大、另ー些组的数值普遍偏小的结果,可以认为多个总体的分布有显著差异。

262“列联分析是利用列联表来研究()。A.两个数值型变量的关系B,两个分类变量的关系C.两个数值型变量的分布D,ー个分类变量和一个数值型变量的关系【答案】B【解析】列联表是由两个以上的变量进行交叉分类的频数分布表,列联分析是利用列联表来研究两个分类变量之间的关系。某学校准备采取ー项新的教师体制改革,为了解男女学生对这ー措施的看法,分别抽取了300名男学生和240名女学生进行调査,得到的结果如表8-12所示。表8-12—男同学女同学赞成观察值期望值反对观察值期望值90962102048478156162根据这个列联表计算的が统计量的值为()。A.0.6176B.1.2352C.2.6176D.3.2352【答案】B【解析】デ检验可以用于变量间拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。用ム表示观察值频数,用エ表示期望值频数,则デ统计量为:宀ナ"ーか厶f,将表9-14中的数据代入计算得:デ=1.2352。某学校准备采取ー项新的教师体制改革,为了解男女教师对这ー措施的看法,分别抽取了50名男教师和50名女教师进行调查,得到的结果如表8-13所示。

263表8-13关于教师体制改革的调查结果男教师女教师合计赞成反对合计3515503020506535100如果要检验男女教师对教师体制改革的看法是否相同,提出的原假设为()。A.H():7Ci=7T2=35B.Ho:71|=7T2=5OC.Ho:7iI=7i2=65D.Ho:兀产兀2=0.65【答案】D【解析】如果男女生对教师体制改革的看法不存在差异,则男女教师赞成教师体制改革的比例应该是相同的(均为65ハ00=0.65)。所以提出的原假设和备择假设分别为:Ho:兀i=m=0.65(赞成比例一致);Hi:一(赞成比例不一致)二、计算题某电视机厂对三个元件生产厂提供的电子元件的三种性能进行质量检验。他们想知道元件生产厂家同元件性能的质量差异是否有关系。抽査了450只元件次品,整理成为如表8-14所示的3x3列联表。表8-143x3列联表

264元件厂、次品类型ABC总计甲204535100乙409070200丙156570150忠计75200175450根据抽查检验的数据,他们认为次品类型与厂家(即哪ー个厂)生产是无关的。要求:(1)试以0.01的显著性水平进行检验,作出判断。(2)计算c系数和V系数。解:(1)建立假设:H„:次品类型与厂家生产是独立的,H,:次品类型与厂家生产不是独立的。计算得各组的频数理论值,如表8-15所示。表8-15各组的频数理论值计算表ABC总计次品类型元件厂甲乙丙20(17)45(44)35(39)10040(33)90(89)70(78)20015(25)65(67)70(58)150总计75200175450L”へ75x100…Eh=~~—==17n450表中各项的理论频数计算方法为:200x100_45044

265「れ屋メれ地!75x100“r13=—_二==39n45075x200ハ==33450200x200“==89450175x200一7845075x150”=25450ら=亠x%200x150ハ-==67450175x150.ハ=58450

266、竺ー立+生生+…+(7。ー58匚9821173358即Z.的计算值为9.821。自由度等于(r—1)(c—1)=(3—1)(3-1)=4.查ゴ分布表得这“(の=13.277。由于ガ=9.821<%oi(4)=13.277,故接受h。,即次品类型与厂家生产是独立的。^7Xmin[(^-l),(C-l)]ラ=0.1045|r1-9821ハc=l—r—=J=0.1461(2)レー+〃V9.821+450ー种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取5〇〇件进行检验,结果如表8-16所示。要求:检验各个地区和原料质量之间是否存在依赖关系。表8-16抽样检验结果ー级二级三级合计甲地区乙地区丙地区526050645965245274140171189合计162188150500解:(1)建立假设如下:H。:地区和原料质量之间没有明显的关系Hi:地区和原料质量之间有明显的关系E.(2)在原假设成立的条件下,可用不进行独立性检验,计算的理论频数’列于表8-17的括号中。表8-17ー级二级三级合计甲地区52(45.36)64(52.64)24(42.00)140

267乙地区丙地区60(55.40)50(61.24)59(64.30)65(71.06)52(51.30)74(56.70)171189合计162188150500所以月统计的值为:/-vy1^-~E1(52-4536):(64-52.64)'_(74-56.70fE*453652.6456.70(3)自由度为(3-1)x(3-1)=4,a=0.05的片分布的临界值片(4)=9.488<19.82«所以拒绝原假设,即认为地区和原料质量之间有明显的关系。

268第九章时间序列分析9.I复习笔记ー、时间序列分析概述时间序列的概念(1)时间序列的定义时间序列(timeseries)是把同一现象在不同时间上的观察数据按时间先后顺序排列起来所形成的数列,也称为动态数列。(2)时间序列包含的两个基本要素①现象所属的时间,可以是年度、季度、月份或其他时间,通常用,表示C的值可以是数据所属的具体时间,也可以只是时间序号);②反映现象在不同时间上水平高低的统计数据,常用ノ’表示,如ル表示时间r所对应的观测值,也称为现象在时间,上的发展水平。(3)基期水平、报告水平及其中间水平作为比较基础的时间称为基期,基期的数据称为基期水平。所要分析考察的那个时间称为报告期,报告期的数据称为报告期水平。就某ー既定的时间序列而言,该数列的首项数据和最末项数据就是其期初水平(记为あ或1i)和期末水平(记为ル),其余的中间各项数据统称为中间水平。2.时间序列的种类按数据的表现形式不同,将时间序列分为绝对数时间序列、相对数时间序列和平均数时间序列三种。(1)绝对数时间序列绝对数时间序列又称为总量指标时间序列,是指一系列同类的总量指标数据按时间先后顺序排列而形成的序列,反映现象在各个时间上达到的绝对水平。按数据所反映时间状态的不同,绝对数时间序列又可分为时期序列和时点序列。时期序列和时点序列的区别有以下几点:①时期序列中的各个数据为时期指标,表示现象在各段时期内的总量。时点序列中的各个

269数据为时点指标,反映现象在各个时点上所处的状态和所达到的水平。经济管理中常常把时期指标称为流量,把时点指标称为存量。②时期序列中各期数据具有可加性,通过加总即可得到更长一段时间内的总量。时点序列中不同时点上的数据不能相加,即它们相加的结果没有意义,无法说明其所属时间。③时期序列中数值大小与所属时期长短有直接的关系,一般说来,时间越长,指标数值就越大。时点序列中各时点数值大小与时点间隔长短没有直接的联系。④时期序列中各期数据是对每段时间内发生的数量连续登记的结果,若有间断或遗漏,各期数据所反映的总量就不准确。时点序列中数据通常不可能也不必要连续登记,只要了解现象在若干代表性时点上的水平,就足以了解现象的变化过程和趋势。(2)相对数时间序列和平均数时间序列①相对数时间序列由一系列同类的相对数按时间先后顺序排列而成的序列就是相对数时间序列,它反映现象相对水平或现象之间数量对比关系的动态。②平均数时间序列由一系列同类的平均数按时间先后顺序排列而成的序列就是平均数时间序列,它反映现象一般水平的发展变化过程和趋势。2.时间序列的编制原则编制时间序列的基本原则主要包括以下几个方面的要求:(1)时间一致(2)总体范围一致(3)经济内容、计算口径和计算方法一致二、时间序列的水平分析与速度分析时间序列分析的水平指标时间序列分析的水平指标用来描述现象在某一段时间上发展变化的水平高低及其增长变化的数量多少,包括发展水平、平均发展水平、增长量、平均增长量等指标。其中发展水平就是时间序列中各项数据。(1)平均发展水平平均发展水平是不同时间上发展水平的平均数,通常称为序时平均数。①绝对数时间序列的平均发展水平a.时期序列的平均发展水平

270时期序列中各项数据相加等于现象在一段时期内的总量,所以计算时期序列的平均发展水7yrマー“+お+…+カーa平,采用的是简单算术平均法,即将各期数据之和除以时期项数。其计算公式为式中:テ代表平均发展水平;以表示i期的发展水平(i=l,2,...,«)〇b.时点序列的平均发展水平时点序列的平均发展水平表示现象在某一段时间内平均每个时点上的水平。对于连续的每个时点的数据,可以利用简单算术平均法准确地计算出时点序列的平均发展水平。对于不连续时点序列,数据是每隔一段时间(如间隔几天、一月、一年等)オ观测ー次,则需要先计算出相邻两个时点之间现象水平的代表值,再以时点间隔长度为权数,将这些代表值进行加权算术平均。若分别以んル,…*工・】代表各个时点间隔长度,则整个考察期内平均发展水平的计算公式可写为_空エ+中…+『た□②相对数(或平均数)时间序列的平均发展水平相对数时间序列和平均数时间序列计算平均发展水平的方法是相同的。设各期的相对数(或平均数)为4,它是ッ’,和モ两个总量指标派生的,即4="/モ。对形成该相对数(或平均数)序列的绝对数序列{凹}和ほ},分别计算其平均发展水平テ和-yX,再由这两个平均发展水平对比来得到所求的平均发展水平モ,即计算公式为X。(2)增长量与平均增长量增长量是报告期水平与基期水平之差,用以说明现象在一定时期内增长变化的绝对数量。增长量为负,则表示现象减少或下降的数量。根据选择的基期不同,增长量可分为逐期增长量和累计增长量。①逐期增长量逐期增长量是报告期水平与前一期水平之差,说明现象逐期增长变化的绝对数量,用符号表示为%ー%(i=L2,…

271②累计增长量累计增长量是报告期水平与某ー固定基期水平(通常为期初水平y。)之差,表明现象从固定基期到报告期这段时期内的总增长量,用符号表示为J,-1b(i=L2」ッ〃)。③累计增长量与逐期增长量之间的数量关系累计增长量等于相应时间内各逐期增长量的总和,两个相邻时期累计增长量之差等于相应时期的逐期增长量。即有④同比增长量/年距增长量为了消除季节变动的影响,计算报告期水平与上年同期水平之差,这种增长量称为同比增长量或年距增长量。这种方法不仅适用于时期指标,也适用于时点指标。其计算公式为同比增长量=报告期水平一上年同期水平⑤平均增长量平均增长量是观察期内各个逐期增长量的平均数,用以说明现象在一段时期内平均逐期增王的福心-一逐期増长量之和一累计増长量十月里一逐期増长量个数一时间序列项数一1长变化的数量。其计算公式为2.时间序列分析的速度指标时间序列分析的速度指标用来描述现象在某一段时间上发展变化的快慢程度,包括发展速度、增长速度、平均发展速度和平均增长速度等指标。(1)发展速度发展速度是报告期水平与基期水平对比的相对数,计算结果通常用百分数或倍数表示,说明报告期水平发展为(相当于)基期水平的百分之多少或多少倍。其计算公式可写为报水平基期水平由于选择的基期不同,发展速度分为环比发展速度和定基发展速度。①环比发展速度

272环比发展速度=鬍J=ユ[=12…⑼环比发展速度是报告期水平与前一期水平之比,即②定基发展速度定基发展速度=論舞芝(,心,〃)定基发展速度是报告期水平与固定基期水平(通常为期初水平y。)之比,即③环比发展速度与定基发展速度的联系与区别区别:环比发展速度反映现象逐期发展变动的程度,也可称为逐期发展速度。定基发展速度反映现象在较长一段时间内总的发展变动程度,也称为发展总速度。联系:定基发展速度等于相应时期内各环比发展速度的连乘积;反之,相邻两个定基发展速度之商,等于相应时期的环比发展速度,即&+迎=2L>0>'oyt.i④同比发展速度为了消除季节变动的影响,与计算同比增长量类似,也可以计算同比发展速度或称年距发展速度,准确反映现象的变化趋势。其计算公式为同比发展速度:蠲齬(2)增长速度增长速度是报告期增长量与基期水平对比的相对数,也称为增长率,计算结果也通常用百分数或倍数表不,说明报告期水平比基期水平增长了百分之多少或多少倍。其计算公式可増长速度=嚼鬻壊展速度ー1写为根据基期的选择不同,增长速度也分为环比增长速度和定基增长速度。它们的计算公式分

273环比増长速度=聚群用比发展速度ー】别为定基増长速度=譜舞=定基发展速度ー】注意:环比增长速度和定基增长速度之间不能直接推算。若要两者相互推算,必须借助于环比发展速度和定基发展速度。同样,为了消除季节变动的影响,也可以计算同比增长速度或称年距增长速度。其计算公同比増长速度=黑需1=同比发展速度・1上年同期水平式为(3)平均发展速度和平均增长速度平均速度包括平均发展速度和平均增长速度。①平均发展速度平均发展速度是环比发展速度的平均数,说明现象在某个发展阶段上的逐期发展变化程度的一般水平。平均发展速度的计算通常采用几何平均法,也可采用方程式法。a.几何平均法若以项代表各期环比发展速度,〃代表环比发展速度的项数,み代表几何平均法计算的平均发展速度,则其计算公式为由于环比发展速度的连乘积等于定基发展速度即总速度(用火表示),而总速度又等于期末水平(然)与期初水平(%)之比,所以上式可变换为下XG=\/R^Qxg=

274面两种形式b.方程式法+)‘3比在ー个时间序列中,各期实际水平之总和(不包括固定基期水平)为界J済+J済セ+な书え3+,•,+No改セX3…X”=ZE将各期水平上用期初水平与各期环比发展速度项的乘积来表示,则上式可变成为若以平均发展速度ス作为各期环比发展速度的代表值,用它来推算各期水平,并希望它能使所推算的各期水平尤(xF)+yo(XF)+)b(xF)+…+比(XF)=汇オ总和与实际水平总和相等,则有(XF)+(X7)+(XF)+…+(XF)=J—即’''''''>00上式是只含有一个未知数ス的高次方程。根据已知的时间序列各项数据,解此方程,其正根就是所求的平均发展速度〇这种计算平均发展速度的方法称为方程式法。②平均增长速度平均增长速度表示环比增长速度的一般水平,说明现象在某个发展阶段上平均逐期增长程度,但不能直接将各个环比增长速度加以平均,应根据它与平均发展速度之间的内在联系来计算,即计算公式为:平均增长速度=平均发展速度ー1。2.水平分析与速度分析的结合与应用水平分析与速度分析运用时须注意以下几个问题:(1)正确选择基期(2)注意数据的同质性

275(3)将总平均速度与分段平均速度及环比速度结合分析(4)将速度与水平结合起来分析为了对现象的动态作出正确分析,通常可计算增长1%的绝对量来补充说明增长速度。增长1%的绝对量等于增长的绝对量除以增长的百分点,也即等于基期水平的1ハ00。其计算増长1%的绝对量=,れーやー=/ゼ=丄2「イ)xioo100Iy-J公式可写为三、长期趋势的测定时间序列的构成与分解(1)时间序列的构成因素按照影响的性质和作用形式,将时间序列的众多影响因素归结为长期趋势、季节变动、循环变动和不规则变动等四种。①长期趋势(trend)长期趋势是指现象在相当长一段时间内沿某一方向持续发展变化的一种态势或规律性。②季节变动(seasonalfluctuation)季节变动泛指现象在一年内所呈现的较有规律的周期性起伏波动。③循环变动(cyclicalfluctuation)循环变动指在较长时间内(通常为若干年)呈现出涨落相间、峰谷交替的周期性波动。④不规则变动(irregularvariation)不规则变动是没有规律可寻的变动,它是从时间序列分离了长期趋势、季节变动和循环变动之后剩余的因素,又称为剩余变动。不规则变动可细分为随机扰动和异常变动两种类型。(2)时间序列因素分解的模型时间序列因素分解的模型最常用的有乘法模型和加法模型。若以y表示时间序列中的指标数值,ア表示长期趋势值,S表示季节变动值,C表示循环变动值,/表示不规则变动值,下标:表示时间(r=L2,乘法模型和加法模型的形式分别为K=r+s.+cr+z.加法模型:111:1乘法模型:Yt=TtxStxCtxIt加法模型假定四种因素的影响是相互独立的,每种因素的数值均与时间序列指标数值丫

276具有相同的计量单位和表现形式(如绝对数序列中各种因素的数值都表现为绝对量)。乘法模型假定四种因素的影响作用大小是有联系的(引起它们变动的原因仍然是相互独立的),只有长期趋势值与时间序列ッ'的计量单位和表现形式相同(如绝对数序列中趋势值为绝对量);其余各种因素的数值均表现为以长期趋势值为基准的一种相对变化幅度,通常以百分数表示。2.长期趋势的测定方法测定长期趋势最简单的是时距扩大法,最常用的有移动平均法和趋势模型法。(1)时距扩大法时距扩大法是将原时间序列中若干项数据合并,得到由较长时间上的数据形成的新序列。时距扩大法的缺点:新序列的项数大大减少,丢失了原时间序列所包含的大量信息,不能详细反映现象的变化过程,不利于进ー步的深入分析。(2)移动平均法移动平均法(movingaverage)是采用逐项递进的办法,将原时间序列中的若干项数据进行平均,通过平均来消除或减弱时间序列中的不规则变动和其他变动,从而呈现出现象发展变化的长期趋势。移动平均法分为简单移动平均法和加权移动平均法两种。简单移动平均法将各项数据等同看待,计算每个移动平均值时采用简单算术平均。加权移动平均法给各期观测值赋予不同的权数,采用加权算术平均来计算每个移动平均值。应用移动平均法,须注意以下几点:①移动平均法对原时间序列具有修匀或平滑的作用,使得原序列的起伏波动被削弱了,而且平均的时距项数k越大,移动平均的修匀作用越强。②移动平均值代表的是所平均数据的中间位置上的趋势值。③当序列包含周期性变动时,移动平均的项数左应与周期长度一致。④移动平均值序列的项数比原序列减少,当平均项数ん为奇数时,新序列首尾各减少(左T)/2项;ん为偶数时,首尾各减少项。⑤当现象呈非线性趋势时,简单移动平均法得到的趋势值很容易出现较大的误差。⑥由于没有建立起反映现象发展变化规律的统计模型,移动平均法不能直接进行外推预测。(3)趋势方程拟合法趋势方程拟合法,是通过拟合以时间,为解释变量,所考察指标为被解释变量的回归方程来测定现象的长期趋势。趋势方程拟合法的最大优点:不仅可以测定出时间序列中各期的趋势值,而且所拟合的趋

277势方程还具有延伸外推的功能;可以根据趋势方程直接进行预测。长期趋势分为线性趋势和非线性趋势。①线性趋势方程当时间序列的逐期增长量大致相同、长期趋势可近似地用一条直线来描述时,就称时间序yr=a+bt列具有线性趋势,可用下列形式的线性趋势方程来描述式中:爲为时间序列乂的趋势值;r为时间(通常取’=L2,….a为趋势线的截距,表示,=。时的趋势值(即既定时间序列长期趋势的初始值),b为趋势线的斜率,表示当时间,每变动ー个单位,趋势值的平均变动量。估计线性趋势方程中参数。、b的方法通常采用最小二乘法,其计算公式与直线回归方程中参数的计算公式相同,即计算

278b.指数曲线。当现象的逐期发展速度或增长速度大体相同时,其长期趋势可拟合为如下形式的指数曲线yt=而‘方程C.其他非线性趋势曲线修正指数曲线的数学特征是:变量值的一次差的环比比率相等。因此,当现象观测值的ー次差的环比比率大体相等时,就适合用修正指数曲线来拟合。直观地说,它所描述的长期趋势具有如下特点:现象初期增长迅速、随后增长率逐渐下降,直至最终以常数K为增长的极限。修正指数曲线的方程形式为ス=沢+而(0<6<1)。龚泊兹曲线(Compertzcurve)的数学特征有:变量值的对数一次差的环比比率相等。它通常所描述的现象趋势是:初期增长缓慢、随后逐渐加快,达到一定程度后增长率又逐渐下降,直至接近一条水平线7=长。龚泊兹曲线的方程形式为ス=K/(K>°)。逻辑斯蒂曲线(Logisticcurve)的数学特征有:变量值倒数的一次差的环比比率相等。方程形式为K+abl四、季节变动和循环波动测定季节变动的测定方法测定季节变动的方法按是否消除长期趋势的影响来划分,可分为两大类:ー是不考虑长期趋势的影响,直接根据原时间序列去测定季节变动,常用方法是同期平均法;二是先剔除长期趋势,然后根据趋势剔除后的序列来测定季节变动,常用方法是移动平均趋势剔除法。(1)同期平均法同期平均法计算季下指数的一般步骤如下:①计算同期平均数);

2799计算全部数据的总平均数y,用以代表消除了季节变动和不规则变动之后的全年平均水平,亦即整个时间序列的水平趋势值。S:=^-xlOO%③计算季节指数S,它等于同期平均数与总平均数对比的比率,即季节指数应满足ー个平衡关系;在ー个完整的季节周期中,季节指数的总和等于季节周期ys.=2或亍=1vs.=100%¢-1Li的时间项数,或季节指数的均值等于1,即若计算结果不满足上式,就需要对其进行调整(即归ー化处理)。调整方法是将所求的各季节指数的调整系数=2=丄さエ项季节指数都乘以一个调整系数,即可得到最终所求的季节指数。此调整系数的公式为:注意:同期平均法是计算季节指数最简单的方法,计算结果也容易理解。但它只适用于时间序列近似呈水平趋势的情况。若时间序列呈现出明显的上升和下降趋势,则同期平均法计算的季节指数就不够准确了。(2)移动平均趋势剔除法移动平均趋势剔除法计算季节指数的具体方法和步骤如下:①计算移动平均值(”)。②剔除原序列中的趋势成分(或趋势ー循环成分)。③消除不规则变动I。④调整季节指数。2.循环变动的测定方法测定循环变动的统计方法主要有直接法和剩余法。(1)直接法测定循环变动的直接法是指将时间序列中的各项数据与其上年同期(同月或同季)的数据进行对比,即计算同比发展速度或年距发展速度,以消除或减弱长期趋势和季节变动的影响,从而由同比发展速度的波动来粗略地描述循环变动的特征。

280(2)剩余法剩余法也称为分解法,其基本思想是以时间序列的构成模型为基础,分别从时间序列中分离出长期趋势和季节变动因素,再消除不规则变动,则剩余的成分就是时间序列的循环变动。2.不规则变动的测定从时间序列中逐一将长期趋势、季节变动和循环变动分离出去,之后剩余的因素统统归结为不规则变动,又称为剩余变动或残余变动。对不规则变动,一般无法预测其未来确切的波动方向和具体数值(至多可以估计其波动的区间范围),只能在事后进行测定和分析。五、时间序列预测模型时间序列预测是将现象在过去和现在所呈现出来的趋势和规律进行类推或延伸,借以预测现象在未来时间上可能达到的水平。FI=hxStx€r以乘法合成模型为基础的时间序列预测模型最一般的形式为式中:「代表所研究现象第,期的预测值;且、呈、ま分别代表第r期的趋势预测值、季节指数预测值和循环变动预测值。长期趋势的几种常用预测方法:1.趋势外推预测趋势外推预测,就是利用根据时间序列所拟合的趋势方程去预测现象在未来时间上的长期趋势值。2.移动平均和指数平滑预测(1)移动平均预测移动平均预测就是用移动平均值作为下一期的预测值。有简单移动平均预测和加权移动平均预测两种。简单移动平均预测第r+1期预测值的计算公式为;_if,其叫+J'tWt+弘づ“たユ吗+%ー1+/ー2+…+卬7.1

281加权移动平均预测第,+1期预测值的计算公式为上式中:ん为移动平均的项数;巧为观测值乂的权数,且满足由近到远权数逐渐递减的原则,即有叫〉吗ー】〉…〉吟一I。(2)指数平滑预测①指数平滑法的基本原理指数平滑法(exponentialsmoothing)是在加权移动平均法基础上改进而来的ー种广泛使用的统计分析方法。它通过计算ー系列指数平滑值来消除不规则变动,以反映时间序列的长期趋势。E:=ctyt+(1-a)E.i用E表示第,期的指数平滑值,其计算公式为上式中:瓦和E-1分别表示第,期和第-1期的指数平滑值;乂为第,期的观测值;a称为平滑系数,0<«

282一次指数平滑预测的模型为由于有或=五1,所以上式又可改写为:ヌ=め+田弘つカ。由此可知第,+1期的预测值等于上期预测值加用a调整后的上期预测误差。③二次指数平滑的预测模型二次指数平滑是对第一次指数平滑值(记为耳’)序列再进行一次指数平滑。以七二靖=*)+(lY)砲表示二次指数平滑值,则有3.自回归预测自回归预测就是建立观测值必对其以前若干期观测值算一式ん=12,…)的回归模型(称为自回归模型),并根据此模型进行预测。其中びメ也称为滞后期观测值,%=a+—+的%=+•••+かー?+4と称为滞后期。若考虑P个滞后期观测值,则自回归模型可写为如下形式上式称为P阶自回归模型,通常记为,状(P)。自回归预测的基本步骤:①预测模型的识别,即对时间序列的特性进行识别,判断是否适合建立自回归模型、自回归模型的滞后期是多长。②估计模型参数,可将上面的模型视为多元线性回归模型来估计其参数,估计方法也可使用最小二乘法。③模型的检验,即根据残差的分布、估计量的t统计量、模型的判定系数ズ等,对所估计的模型进行检验,经过检验认为适用的模型方能用于预测。自回归模型是现代时间序列分析中自回归移动平均模型(’的厶模型)的特例。自回归模型的识别包括时间序列平稳性的判断和自回归模型的阶数的确定,需要计算自相关系数和偏自相关系数4.预测误差预测误差是指现象的实际值与预测值之差。误差小,预测结果的精度就高。以乂表示,期的实际值,ス表示,期预测值,〃表示预测值个数,衡量预测模型的误差常用的指标有以下几个:

283・めe=N.,ウ|(1)平均绝对误差(meanabsoluteerror,简记为MAE)(2)平均相对误差(meanpercentageerror,简记为MPE)(3)均方误差(meansquareerror,简记为MSE)

284(4)均方根误差(rootmeansquareerror,简记为RMSE)

2859.2课后习题详解ー、选择题下列时间序列中属于时期序列的是()。A,某年各季度末的从业人数B.历年年末居民储蓄存款余额C.历年秋季高校招生人数D.历年年初粮食库存量【答案】C【解析】按数据所反映时间状态的不同,绝对数时间序列又可分为时期序列和时点序列。时期序列是反映某现象在一段时间内发展过程的总量,该数列具有时间量纲。时点数列反映某现象在某ー时点上的状态即发展水平。ABD均属于时点序列,只有C为时期序列。某储蓄所今年9〜12月月末居民储蓄存款余额分别为480,460,520和560万元,则第四季度居民储蓄存款的平均余额为()万元。A.500B.513.3C.515D.520【答案】A【解析】月末居民储蓄存款余额属于不连续时点序列,要计算整个考察期的平均发展水平需要先计算出相邻两个时点之间现象水平的代表值,再以时点间隔长度为权数,将这些代表值进行加权算术平均。当各时点间隔相等时,可以通过“首末折半法”计算而得—1z480m560ヽ..-r--ヽy=x(-y-+460*520*)=500(万兀),因此第四季度居民储蓄存款的平均余额

286若侧重于考察各期发展水平的总和,计算平均发展速度应采用()。A.几何平均法B.方程式法C,算术平均数D,移动平均法【答案】B【解析】方程式法计算的平均发展速度取决于考察期内各期实际水平的累计总和,所以计算平均发展速度的方程式法又称为“累计法”。方程式法的特点是:以所求的平均发展速度代替各期环比发展速度,推算的考察期内各期水平的累计总和与各期实际水平的累计数相等。某地区居民用电量呈逐年上升趋势,某月用电量的季节指数为120%,表明本月居民用电量()。A.比上月增加20%B.比本月用电量趋势值高20%C.比上年同月增加20%D,比本年的月均用电量高20%【答案】D【解析】在ー个完整的季节周期中,季节指数的总和等于季节周期的时间项数。本题中月用电量的季节变动表现为各月的季节指数围绕着100%上下波动,表明各月销售量与全年平均数的相对关系。某月用电量的季节指数为120%,表明本月居民用电量高于本年用电量平均数的20%。当时间序列的环比增长速度大体接近一个常数时,其趋势方程的形式为()。A,直线B.二次曲线C.指数曲线D.修正指数曲线【答案】C【解析】当现象的逐期发展速度或增长速度大体相同时,即现象大致按几何级数递增或递减时,其长期趋势可拟合为指数曲线方程。

287如果时间序列中循环变动的波动越小,则在乘法模型中,循环变动的测定值就越接近()〇A.-1B.0C.0.5D.1【答案】D【解析】当循环波动成分不存在时,在乘法模型中的循环变动测定值C取值为1,在加法模型中取值为〇。二、判断分析题一般说来,由时点序列计算平均发展水平时,时点间隔越短,计算结果就越准确。【答案】正确【解析】由不连续时点序列计算平均发展水平的计算公式是有假定条件的。实际中,计算结果通常只是近似值。一般认为,间隔越短,计算结果就越准确。例如,由一年中各月底数计算的全年平均数,就比只用年初和年末两项数据计算的结果更准确。某企业产品的废品率逐月下降,一月份生产12500件,废品率为2.4%;二月份生产13800件,废品率为2.2%;三月份生产11200件,废品率为2%。则ー季度的平均废品率为(2.4%+2.2%+2%)73=2.2%〇【答案】错误空处空空整理3也经•221%【解析】第一季度的平均废品率为:1250073800-11200指数平滑法的平滑系数越大;对时间数列中数据变化的反应就越灵敏。【答案】正确【解析】应用指数平滑法的关键是平滑系数a的选择。a越大,近期数据的权数就越大,权数递减的速度就越快,对现象变化的跟踪反应越敏捷,但修匀作用就越弱。反之,a越小,对数据的跟踪反应越迟缓,而修匀作用越强。对月度数据序列,用移动平均法测定其长期趋势值时,可采用四项或ハ项移动平均。【答案】错误【解析】移动平均的目的是消除季节因素和偶然因素的影响,移动平均的时距项

288数应与季节变动长度一致,才能消除季节变动。对月度数据序列,用移动平均法测定其长期趋势值时,采用12项移动平均较为适宜。某企业利润总额2000年比1990年增加了100%,2004年又比2000年增加了4()%,因此平均来看,前后两段时问内该企业利润总额的增长速度相等,而且这14年间总的增长速度高达140%〇【答案】错误【解析】前10年的平均增长速度为7.177%,后4年的平均增长速度为&775%。这14年间总的增长速度为180%(即2004年比1990年增长180%)。判别自回归预测模型阶数的主要依据是自相关系数。【答案】错误【解析】自回归是指观测值上对其以前若干期观测值ジ〜(k=l,2,..)的回归。若考虑尸个滞后期观测值,则自回归模型称为ア阶自回归模型,通常记为,找3)。判别自回归预测模型阶数的依据主要是自相关系数和偏自相关系数。四、计算题某商业企业某年第一季度的销售额、库存额及流通费用额资料如表9-1所示。1月2月3月4月销住新(万元)288021702340—月初库存额(万元)1980131015101560流通费用额(万元)230195202一表9-1试计算第一季度的月平均商品流转次数和商品流通费用率(提示:商品流转次数=销售额.平均库存额;商品流通费用率=流通费用额+销售额)。第平均旧(2880+2170+2340)32463.333ス竿7310710,华)(ユ厂-^-1解:第一季度的月平均商品流转次数为:第一季度的平均商品流通费用率为:

289第一季度的月平均流通费用ー(230-195-232);23一s,S。。第一季度的月平均请售额(2880+2170+2”。)32463.333='°我国1990〜2003年的能源消费总量如表9-2所示(数据来源于《中国统计年鉴2004》,单位:万吨标准煤)。年份年1990199119921993199419951996能源消费总收98703103783109170115993122737131176138948年份年1997丨中小1999200020012002餌3並源消费总附137798132214130119130297134914148222167800表9-2要求根据上述数据计算:(1)年平均发展水平和年平均增长量。(2)年平均增长速度(分别用几何平均法和方程式法计算)。(3)指出增长速度超过平均速度的年份有哪些年?(4)按所求的平均速度预测2005年和2010年我国的能源消费总量。VV_、・]+>+...+v[4う乙!703171ハ“1My=ハ-=——=-12870529解:(1)平均发展水平为:表9-3年份/年1990199119921993199419951996能源消费总量98703103783109170115993122737131176138948逐期增长量一—-508053876823674484397772累计增长量—50801046717290240343247340245年份/年1997199819992000200120022003能源消费总量137798132214130119130297134914148222167800逐期增长量-1150-5584-209517846171330819578累计增长量39095335113141631594362114951969097年平均增长量=B

290(2)年平均增长速度①几何平均法:_』最末水平571167800...平均发展速度ルー《最初水平=疗イ98703一一平均增长速度=104.2%-100%=4.2%②方程式法:以平均发展速度も作为各环比发展速度的代表值,用它来推算各期水平,并能使所推算的各期水平总和与实(xr)+(xf)~+(xr)'+...+(x,)uyvtr-1170317198703际相等,则有:解得平均增长速度し=1.0397(3)表9-4年份/年1990199119921993199419951996环比增长速度—0.0510.0520.0620.0580.0690.059定基增长速度———0.0510.1060.1750.2430.3290.408年份/年1997199819992000200120022003环比增长速度-0.01-0.04-0.020.0010.0350.0990.132定基增长速度0.3960.340.3180.320.3670.5020.7某企业产品销售量历年的增长速度如表9-5所示。第一年第二年第三年第四年第な年环比増长速度(%)76.6定ル增长速度(%)7153039表9-5试求五年间年平均增长速度,并指出增长最快的两年是哪两年?解:环比增长速度和定基增长速度如表9-6所示:

291表9-6第一年第二年第三年第四年第五年环比增长速度(%)77.486.66.16.9定基增长速度(%)71522.593039由几何平均法计算可得,平均增长速度=5-1=6.8078%结合上表可知,增长最快的是头两年。某服装厂2004年服装生产量为100万件。试求:(1)预计从2005年起,生产量每年递增10%,问到2010年该厂服装生产量可达到多少?(2)若希望2010年生产量在2004年基础上翻一番,问自2005年起每年应以多快的速度增长才能达到预定目标?平均每月递增的速度又该是多少?解:(1)2010年该厂服装产量为:100x(1+0.1)E77.1561(2)2010年生产量为200万件,设为达到预定目标,2005年起每年应速度x增长,平均每月递增速度为y,则有:100x(1+x)*=200解得x=12.246%y=マ(1司=1.24%我国200〇〜2004年各月的人身意外伤害保险费如表9-7所示(单位:百万元)X1234567891011122000282256750535470845302395137614736737272001310486740544449786407419123289260761120023752549106665678474984611333807614536200340840310147367001304528626145789588610002001501669I211995881136871881016901124957782故据东源f中国保险监督管理委员会网站WWW.cire.ROV.E.经过整理.表9-7要求:

292(1)分别用同期平均法和移动平均趋势剔除法计算季节指数。(2)比较说明两种方法计算结果的差别及其原因。解:两种方法计算的各月季节指数(%)如下:同期平均法计算的季节指数:表9-8月份12345678910111220002822567505354708453023951376147367372720013104867405444497864074191232892607611200237525491066656784749846413338076145362003408403101473670013045286261457895XS6100020045016691211995881136871881016901124957782同期平均数375.41413.52924.95695.21613.421029.98490.72542.901417.491038.15747.27731.30季节指数%49.9455.01123.0592.4981.61137.0265.2872.22188.57138.1199.4197.29移动平均趋势剔除法的计算季节指数:表9-9月份12345678910111220000.44770.57621.98042.12080.96901.051820010.44800.69591.06750.S209().7()671.25()20.6492().67731.99661.41860.95040.945120020.57480.38601.36961.00120.85721.28530.75760.69751.97331.18160.88820.74942(X)30.55440.54201.34090.96240.89761.60870.63390.73781.67911.00910.97831.092820040.54140.70991.26311.01700.88901.3895同期平均数0.52960.58351.26030.95040.83761.38350.62210.67221.90731.43250.94650.9598季节指数%52.5957.93125.1494.3783.17137.3761.7766.74189.39142.2493.9895.306.根据第5小题的数据,要求:(1)用所求季节指数调整原时间序列,对调整后的序列用最小二乘法拟合线性趋势方程。

293(2)根据季节指数和趋势线,预测2005年各月及全年的保险费。(3)试分别用直接法和剩余法测定循环变动,并说明我国人身意外伤害保险费有无明显的循环波动规律。(4)测定不规则波动。解:表9-10线性回归系数表Coefficients标准误差tStatP-valueLower95%Upper95%Intercept515.601334.4577414.963291.42E-21446.6266584.5759X7.792760.9824377.9320697.96E-115.8261989.759322对调整后的序列用最小二乘法拟合线性趋势方程为:产515.6013+7.79278,拟合度・〇.52表9-11保险费及其季节、趋势、循环和不规则波动值时间序号人身意外伤害保险费(Y)季节指数S(%)剔除季节因素后的序列(Y/S=TCI)趋势值(T)循环和不规则变动值(Y/S/T=CI)5项移动平均(C)不规则变动值(I)2000年1128252.59536.35523.391.022000年2月225657.93441.55531.190.832000年3月3750125.14599.02538.981.111.001.112000年4月453594.37566.73546.771.041.021.022000547083.564.50554.51.021.020.99

294年5月1772(X)0年6月6845137.37615.13562.361.091.011.092000年7月730261.77488.97570.150.861.050.822000年8839566.74591.72577.941.021.190.862000年9月91376189.39726.31585.741.241.211.022000年10月101473142.241035.56593.531.741.291.352000年11月1167393.98715.69601.321.191.280.932000年12月1272795.30762.41609.111.251.300.962001年1月1331052.59590.12616.910.961.140.842001年2月1448657.93838.52624.701.341.081.252001年3月15740125.14591.22632.490.930.990.942001年4月1654494.37576.66640.290.900.980.922001年5月1744983.17540.38648.080.830.910.922001年6月18786137.37571.96655.870.870.910.962001年7月1940761.77658.27663.660.990.921.08

2952001年8月2041966.74628.51671.460.940.931.002001月211232189.39650.27679.250.960.951.012001年10月22892—142.24627.33687.040.910.930.982001年11月2360793.98646.19694.830.930.940.992001年12月2461195.30641.11702.630.910.871.042002年1月2537552.59713.56710.421.000.891.132002年2月2625457.93438.69718.210.610.900.682002年3月27910125.14727.34726.011.000.901.112002年4月2866694.37705.74733.800.960.861.112002年5月2956783.17682.19741.590.920.950.962002年6月30847137.37616.67749.380.820.940.882002年7月3149861.77806.17757.181.060.931.152002年8月3246466.74694.80764.970.910.891.022002年9月331333189.39703.73772.760.910.891.032002年10月34807142.24567.06780.560.730.820.892002年11月3561493.98653.15788.350.830.831.002002年12月3653695.30562.78796.140.710.820.872003年1月3740852.59775.75803.930.960.871.112003年2月3840357.93696.08811.730.860.890.962003年3月391014125.14810.03819.520.990.951.042003年4月4073694.37780.01827.310.940.980.962003年5月4170083.17841.63835.101.011.010.992003年6月421304137.37949.19842.901.131.041.092003年7月4352861.77855.55850.691.011.020.982003年8月4462666.74938.12858.481.090.971.132003年9月451457189.39769.53866.280.890.960.932003年10月46895142.24629.27874.070.720.990.732003年11月4788693.98942.40881.861.070.981.092003年12月48100095.301049.82889.651.181.061.112004年1月4950152.59953.36897.451.061.130.94

2962004年2月5066957.931154.00905.241.271.141.112004年3月511211125.14968.08913.031.061.140.932004年4月5299594.371054.32920.821.141.141.012004年5月5388183.171059.01928.621.141.131.012004年6月541368137.37996.00936.411.061.170.912004年7月5571861.771163.06944.201.231.131.092004年8月5681066.741213.92952.001.281.061.202004年9月571690189.39892.41959.790.931.060.882004年10月581124142.24790.06967.580.S20.980.832004年11月5995793.981018.26975.371.042004年12月6078295.30820.65983.170.83图9ノ我国1985〜2(X)3年全社会及国有经济的固定资产投资额数据如表%12所示(数据来源于《中国统计年鉴2004》,单位:亿元)。表9-12

297年份/年全社会投资额国イ1经济投资额年份/年全社会投資額国有经济投资額1985254316811995200191089819863121207919962291412006198737922449199724941130921988475430201998281061536919894410280819992985515948199045172986200032918)650419915595371420013721317607199280805499200213500188771993130727926200355567216611994170429615试利用Excel图表中的“添加趋势线”功能分别拟合全社会及国有经济的固定资产投资额的趋势线,根据Rユ选择拟合效果最佳的趋势方程,并利用趋势外推法预测2005年全社会及国有经济的固定资产投资额。解:对全社会固定资产投资额,二次曲线和指数曲线拟合的趋势方程和预测值(单位:亿元)分别为:ハ27272-286147.6ボ,*0,9806,2005年预测值=56081.60;。=2169.2¢:、-2169.2(1.19244)*,R2=0.9664,2005年预测值=73287.57。国有经济固定资产投资额,可用二次曲线和直线来拟合其长期趋势,趋势方程和预测值(单位:亿元)分别为:£,=186.77+557.39:+30.075ゼ,rzr.9792,2005年预测值=23364.57;了「ー1918.5+1158比,r=o.9638,2005年预测值=21259.50。根据第7小题中的国有经济投资额数据,采用二次指数平滑法估计线性预测模型的参数,并据以预测2005年国有经济的固定资产投资额。解:表9-13二次指数平滑测年份YE1E2ab19851681198620791680.501680.50198724491879.951680.502079.40199.45198830202164.381780.232548.53384.15198928082592.191972.303212.08619.89199029862700.142282.243118.04417.90199137142843.222491.193195.25352.03199254993278.512667.213889.81611.30

298199379264388.612972.865804.351415.75199496156157.253680.738633.772476.521995108987886.134918.9910853.262967.131996120069392.166402.5612381.772989.6019971309210699.187897.3613501.002801.8219981536911895.449298.2714492.612597.1719991594813632.3710596.8616667.883035.512(X)01650414790.0712114.6117465.522675.4520011760715647.2513452.3417842.172194.9120021887716627.1114549.8018704.432077.3220032166117752.2315588.4519916.012163.782004(预测值)22079.784732005(预测值)24243.56178已知某地区近25年粮食单产依次如表9-14所示(单位:公斤/公顷)。62406390697568857755828085058445850584608340855091209165936087758640937595109600963098101015595709180表9-14试分别用加权移动平均法(取5项平均、权数依次为5,4,3,2,1)、指数平滑法(a=0.4)和一阶自回归模型对该地区第26年的粮食单产进行预测。.9180x5*9570x4^10155x3-9810x2*9630x1«=9^30解:加权移动平均的预测值为:%5=2.+匕£X1=9426.18-54.07x1-9372.1二次指数平滑预测的结果为:ー阶自回归模型预测的结果为:%=1517.2228-0.83754x9180=9205.8410.根据第9小题的资料,利用预测误差来评价三种预测方法的优劣。解:

299表9-15预测误差绝对误差误差平方加权移动平均指数平滑值加权移动平均指数平滑值加权移动平均指数平滑值615.00615378225.009.009.0081.00749.40749.40561600.361196.00551.041196.00551.041430416.00303645.08944.0091.46944.0091.46891136.008365.66468.00-373.62468.00373.62219024.00139590.11273.00-361.27273.00361.2774529.00130514.6851.00-404.0251.00404.022601.00163231.72-123.00-429.77123.00429.7715129.(X)184699.51120.00-40.27120.0040.2714400.001621.93657.00466.39657.00466.39431649.00217518.00482.0049.16482.0049.16232324.002417.12487.0041.10487.0041.10237169.001688.99-309.00-748.38309.00748.3895481.00560076.13-400.00-462.85400.00462.85160000.00214233.68453.00583.99453.00583.99205209.00341047.86467.00267.42467.00267.42218089.0071512.93408.0065.67408.0065.67166464.004311.94282.00-77.47282.0077.4779524.006001.98312.0033.39312.0033.3997344.001115.13504.00232.96504.00232.96254016.0054271.45-271.00-662.47271.00662.4773441.00438862.36-604.00-683.83604.00683.83364816.00467618.94合计8811.0()6626.535262761.003312345.21表9-16预测误差对比表平均绝对误差均方误差加权移动平均440.55263138.05指数平滑值288.11144015.01移动平均预测只具有预测未来一期趋势值的预测功能,只适用于呈水平趋势的时间序列。如果现象的发展变化具有明显的上升(或下降)趋势,则移动平均预测的结果就会产生偏高(或偏低)的滞后偏差,即预测值的变化滞后于实际趋势值的变化。移动平均的项数K越大,滞后偏差就越大。二次指数平滑预测模型是以最近一期的ー、二次指数平滑值来估计线性趋势预测模型的参数,因此,其参数估计值是根据数据的最新变化而不断修正的,此预测方法适宜对现象进

300行短中期预测。对于本题而言,指数平滑法的预测误差更小一些。

3019.3考研真题与典型习题详解ー、选择题2012年十八大报告明确提出,到2020年实现全面建设小康社会宏伟目标,国内生产总值和城乡居民收入翻一番。期间年平均增长速度至少为()才能达到此目标?[浙江エ商大学2014研]A.9.05%B.18.95%C.10.41%D.8.01%【答案】A【解析】假设该期间年平均增长速度为x,则(l+x)'=2,x=218-1=9.05060ー个时间序列ほ}存在AR(1)模型关系:xr-10=-0.2(41-10)+ぢ。以下说法错误的是()。[华东师范大学2013研]A.相邻的モ之间是负相关关系,不相邻的モ之间不存在相关关系B.。之间存在相关关系C.毛的期望值是10D.G的期望值是〇【答案】B【解析】。是随机扰动项,需要假设其是独立同分布的。移动平均法是通过计算逐项移动的序时平均数,来形成派生数列,从而达到()对数列的影响。[中央财经大学2012研]A.消除偶然因素引起的不规则变动B.消除非偶然因素引起的不规则变动C.消除绝对数变动D.消除计算误差【答案】A【解析】平稳时间序列通常只含有随机成分,其预测方法主要有简单平均法、移动平均法和指数平滑法等,这些方法主要是通过对时间序列进行平滑以消除其随机波动。口已知某地区工业总产值的环比发展速度2005年为103.5%,2006年为104%,2008年为105%,2008

302年对2004年的定基发展速度为116.4%,则2007年的环比发展速度为()。[江苏大学2012研]A.103%B.101%C.104.5%D.113%【答案】A【解析】环比发展速度的连乘积等于对应的定基发展速度,得:>2005xx”〇rX无派一J・如sめ004>2005>200¢>'20

303二80性成分从时间序列中分离出去。即125%(万元)。设{X}是平稳时间序列,则下面陈述不正确的是()。[中山大学2011研]A.t时刻的均值E(X,)不依赖tB.t时刻的方差Var(X.)不依赖tC.时刻与s(s^t)时刻的协方差cov(X„Xs)不依赖t,也不依赖sD.t时刻与s时刻的协方差与t+1,s+1时刻的协方差相等,即Cov(X.,XS)=Cov(X,+l,Xs+1)【答案】B【解析】如果时间序列{凡}满足如下三个条件,则称{用}为平稳时间序列:①任取権ア,有E(N)=4,〃为常数;②任取とア,有£(X:)

304【答案】A【解析】如果序列包含有明显的上升(或下降)趋势或循环变动,为了更准确地计算季节指数,就应当首先设法从序列中消除趋势因素,然后再用平均的方法消除不规则变动,从而较准确地分解出季节变动成分。即如果序列包含有明显的上升(或下降)趋势或循环变动,适合用循环剔除法测定时间序列季节变动。要通过移动平均法消除季节变动,则移动平均项数()。A,应选择奇数B,应选择偶数C.应和季节周期长度一致D.可任意取值【答案】C【解析】当序列包含季节变动时,移动平均时距项数K应与季节变动长度一致(如4个季度或12个月),才能消除其季节变动;若序列包含周期变动时,平均时距项数K应和周期长度基本一致,才能较好地消除周期波动。现有某地区五年的花生产量分别是15、18、24、37、35吨,那么其平均增长量是()吨。A.帀B.4C.511D.7【答案】C【解析】平均增长量是用来说明某种社会经济现象在一定时期内平均每期增长的平均増长量=ホ积—长里=35T5=5数量的指标。其计算公式为:时间数列项数二T5-1(吨)。2002年末某市人口为120万人,2012年末达至U153万人,则人口的平均发展速度为()。A.2.46%B.2.23%C.102.23%D.102.46%【答案】D【解析】计算平均发展速度通常采用几何平均法。若と表示平均发展速度,〃

305表示环比发展速度的时期数,则:と此=西・ムメ•・也b=正/尤=孕53/120ミ102.46%,故人口的平均发展速度的计算公式为:某公司2013年职工人数的资料,如表9-17所示。则该公司2013年全年职エ平均人数为()人。表9-17某公司职工人数资料日期1月1日3月31日5月1日11月1日12月31日人数(人)30203260295032003270A.3140B.3139C.3300D.3120【答案】D【解析】由时点间隔不等的时间序列计算公式可得该公司2013年全年职エ平均人互込.+わ+整£+...+总产カノ।zZエ+ル+…+加3020+3260.3260+2950,3200+3270ヽ―--x3+---X1+-+―--x23+1+---+2=3120(A)数为:连续12个月的逐期增长量之和等于()。A,相应时期的增长绝对量B,相应时期的年距增长量C.相应时期的增长率D,相应时期的累计增长量

306【答案】D【解析】逐期增长量是报告期水平与前一期水平之差,可以表示为:4一%,生一q,ムー累积增长量是报告期水平与某ー固定时间的水平(通常为最初水平)之差,可以表示为4一%,生ー%,…,ムー%。连续12个月的逐期增长量之和=(4-%)+@-2+・一+(%-它实质上就是相对应时期的累计增长量。二、简答题试述加法模型中季节成分的分析方法。[中央财经大学2014研]答:季节变动是ー种比较常见的经济和社会现象,在经济分析中需要进行季节调整来避免对其他因素的干扰。加法模型是季节调整模型之一,其假定季节因素对ー个时间序列影响的绝对值不变,即模型Y=T+C+I+S中,S对Y影响的绝对值不变。其中,T为长期趋势要素,C为循环要素,I为不规则要素。采用加法模型计算季节变动并预测的方法如下:(1)计算长期趋势。(2)剔除长期趋势得到季节要素。(3)采用最小平方法或其他方法预测计算长期趋势,然后计算各时期实际值与趋势值之差,即残差,再计算各年同时期残差的算术平均数,即得各时期季节因素值。用移动平均法修匀时间数列注意的问题。[首都经贸2008研]答:应用移动平均法修匀时间数列时,需要注意:(1)移动平均时距项数K为奇数时,只需一次移动平均,其移动平均值作为移动平均项数的中间一期的数值;而当移动平均项数K为偶数时,移动平均值代表的是这偶数项的中间位置的水平,无法对正某ー时期,则需再进行一次相邻两平均值的移动平均,这样才能使平均值对正某ー时期,这称为移正平均,也称中心化的移动平均数。(2)当序列包含季节变动时,移动平均时距项数K应与季节变动长度一致(如4个季度或12个月),才能消除其季节变动;若序列包含周期变动时,平均时距项数K应和周期长度基本一致,才能较好地消除周期波动。(3)移动平均以后,其序列的项数较原序列减少,当K为奇数时,新序列首尾各减少(K-1)/2项;K为偶数时,首尾各减少K/2项。所以移动平均会使原序列失去部分信息,而且平均项数越大,失去的信息越多。因此,移动平均的项数不宜过大。编制时间序列的目的与具体编制应注意的问题?[北京林业大学2006研]答:编制时间序列的目的是要通过对各时间的变量数值进行对比,研究现象发展变化的过程和规律。因此,保证数列中各个指标数值的可比性,是编制时间序列的基本原则。具体包括:

307(1)时间一致对于时期指标时间序列,各指标值所属时期长短应一致;对于时点指标时间序列,各指标的时点间隔长短应一致。(2)口径一致包含以下几个方面:现象总体范围应一致;计算价格应一致:计量单位一致;经济内容要一致。(3)计算方法一致指标名称、总体范围、计算价格和计量单位以及经济内容都一致的指标,有时因计算方法不一致,也会导致数值上的差异。在编制时间序列时,应注意各指标的计算方法是否统ー,以确保指标可比。时间序列有哪些种类?时期指标时间序列和时点指标时间序列有哪些不同的特点?答:(1)时间序列的分类主要有:①时间序列按照其指标的性质,可以分为总量指标、相对指标和平均指标三种类型。②根据指标的时间属性分类,时间序列可分为时期指标时间序列和时点指标时间序列。③根据指标的平稳性分类,时间序列可以分为平稳时间序列和非平稳时间序列。(2)时期指标时间序列和时点指标时间序列的不同特点:①时期指标时间序列具有可加性,即不同时期的总量指标可以相加;时点指标时间序列具有不可加性,即不同时点的总量指标不可相加。②时期指标时间序列的指标值的大小与所属时间的长短有直接的关系;时点指标时间序列的指标数值的大小与时点间隔的长短一般没有直接的关系。③时期指标时间序列的指标值采用连续统计的方式获得;时点指标时间序列的指标值采用间断统计的方式获得。试对指数平滑法和移动平均法进行简要比较。

308答:指数平滑法是对过去的观察值加权平均进行预测的ー种方法,该方法使得第t+1期的预测值等于t期的实际观察值与第t期预测值的加权平均值。指数平滑法是加权平均的ー种特殊形式,观察值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑。指数平滑法有一次指数平滑、二次指数平滑、三次指数平滑等,使用指数平滑法时,关键的问题是确定一个合适的平滑系数a。因为不同的a会对预测结果产生不同的影响。移动平均法是通过对时间序列逐递求得平均数作为预测值的ー种预测方法,其方法有简单移动平均法和加权移动平均法两种。移动平均法只使用最近k期的数据,在每次计算移动平均值时,移动的间隔都为k。该方法也主要适合对较为平稳的时间序列进行预测。应用时,关键是确定合理的移动间隔长度k。对于同一个时间序列,采用不同的移动步长预测的准确性是不同的。选择移动步长时,可通过试验的办法,选择一个使均方误差达到最小的移动步长。移动平均也有不足,主要是对于不含季节因素的趋势序列,每一期的移动平均值实际上都只包含了k个数据的信息,而没有将历史数据信息充分反映到趋势值或预测值中。指数平滑法可以弥补移动平均法的不足,能够充分利用所有的数据信息,同时又体现近期数据对未来预测影响作用更大的特点。与移动平均法一样,一次指数平滑法也可以用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势。三、计算题某单位已知资料如表9-18所示:时间(年)20002001200220032004环比发展速度(%)定基发展速度く%)108.20115.10107.60128.50109.20表9-18依据环比发展速度与定基发展速度的关系计算表中的空缺指标。[西安交大2006研]解:由于相邻时期的定基发展速度之商等于相应时期的环比发展速度;环比发展速度的连乘积等于相应时期的定基发展速度。所以:2001年的环比发展速度=108.2%128.5%=103.75%11510〇0=106.38%2003年的环比发展速度=108.2。。、106.385。。X107.6。。四竺=1082%2000年的定基发展速度=106.38%2002年的定基发展速度=108.2%xl06.38%xl07.6%=123.85%2004年的定基发展速度=123.85%xl03.75%xl09.20%=140.32%

309对某地区1991〜2000年间积累的历年外贸出口资料,进行回归分析,得如下各步中间结果:Zt=55,Zt?=385,Zy-=2567,gty=-14624要求:(1)用最小二乘法求出该直线方程Y«=a+bt。(2)又知该时间数列四季度均含有季节波动,其季节比率依历史资料整理得:第一季度为90%,第二季度为80%,第三季度为140%,第四季度为90%,试求2002年四个季度的预测估计值。(该方程原点在1990年年中,单位为:万元)[南京大学2002研]I=1セズ'=10x14624-55*567=6あ)23385*解:(1)根据最小二乘法得:a=v-ftF=r±_-6.i3x—=222.985'1010yc=222.985+6.13r所以该方程是:>>=222.985+6.13x12=296.545の元)(2)当是2002年时,t=12,则2002年的预测估计值为:根据时间序列中的季节波动,得へ90°oH=296.545x第一季度的预测估计值为:90°。+80?。+140。。+90°。=66.72(万元)へ80°oH=296.545x第二季度的预测估计值为:90°。+80?。+140。。+90°。=59.31(万元)

310>■,=296.545x第三季度的预测估计值为:ノ1400<>90°〇+80°〇+140°〇+90°〇=103.79(万元)90%第四季度的预测估计值为:90°o+80%+140%+90°o=66,72(万元)某地区2008〜2013年社会消费品零售总额资料如表9-19所示。表9-19单位:亿元年份200820092010201120122013社会消费品零售总额8255938310985122381605919710要求:(1)计算全期平均增长量、平均发展速度和平均增长速度;(2)列表计算:①逐期增长量和累积增长量;②定基发展速度和环比发展速度;③定基增长速度和环比增长速度;④增长1%的绝对值。11455平均发展速度=6=119.01%解:(1)平均增长量=5=2291(亿元)平均增长速度:119.01%-100%=19.01%(2)由表10-6中的数据可得各增长量、发展速度、增长速度,如表9-20所示。表9-20单位:亿元—2(X)82(X)92010201120122013年度社会消费品零售额(兑)8255938310985122381605919710逐期增长量(尤一为一1)—11281602125338213651累积增长量(上一”)—112827303983780411455定基发展速度(片了。)(%)—113.66133.07148.25194.54238.76环比发展速度(比、ヨ)(%)—113.66117.07111.41131.22122.73定基增长速度(二比ー])(%)—13.6633.0748.2594.54138.76环比增长速度(ユル厂】)(%)—13.6617.0711.4131.2222.73增长1%的增长量(ぬ1°°)—82.5593.83109.85122.38160.59某企业历年的产品产量资料如表9-21所示。

311表9-21年份产量年份产量20002001200220032004200520063444164354404504684862007200820092010201120122013496522580580569548580要求:(1)对时间序列进行三项中心化移动平均修匀;(2)根据修匀后的数据拟合直线趋势方程;(3)预测2014年的产品产量。解:(1)对时间序列进行三项中心化移动平均修匀的结果如表9-22所示。表9-22三项中心化移动平均修匀计算表:产量三项中心化移动平均修匀年份产量三项中心化移动平均修匀年份200034420074962001416200852220024352009580200344039843044245346848320105805015335615765665662(X)445020115692005468201254820064862013580344+416+435计算方法:如2001年对应的数据ー3〇(2)令2001年时•=1设趋势方程为yi=bu+bit(t=l»2,3,...)吟y-(»Xタ)〃ザー(»厂16.7根据修匀后的数据,利用最小二乘法可得:%=y-^~=498.08-16.65x6.5=389.9因此y,=389.9+16.7t。(3)2014年对应t=14,即2014年的产品产量为:'4=389.9+16.7x14=624。

312第十章对比分析与指数分析10.1复习笔记ー、对比分析对比分析的意义(1)对比分析的定义对比分析,是指根据现象之问的客观联系,将两个有关的统计指标进行对比来反映数量上的差异或变化。(2)对比分析的意义相对数是两个有联系的指标对比的比率。它在统计分析中具有如下意义:①揭示了现象之间数量上的相互联系和对比关系。②可以使一些不能直接对比的数据变成具有可比性的数据,从而正确判断现象之问的差异程度。2,常用的对比分析方法按对比所依据的指标数值是否为同一时间来划分,对比分析方法可分为静态对比和动态对比两类。根据分析目的和比较基准的不同来划分,对比分析主要有下述几种常用方法:(1)结构分析结构分析就是在分组的基础上,将各组的总量指标与总体的总量指标对比,计算出各组数量在总体中所占的比重,从而反映总体的内部结构状况。比重是表现总体结构最常用的ー结构相对数(比重)*总、体中某一部分总量总体的总量X100%种相对数,因此也称之为结构相对数,其计算公式为结构分析主要的作用有以下几个方面:①通过结构分析可以反映现象总体的性质和基本特征。

313②通过观察总体结构在时间上的变化或空间上的差异,可以说明现象总体性质的变化,揭示现象由量变到质变的过程和规律性③许多比重还可以直接说明工作质量好坏,反映经济实カ和竞争能力的强弱,或衡量工作效率和经济效益的高低等。(2)比例分析比例分析是在分组基础上将总体不同部分的指标数值进行对比,所得的相对指标一般称为比例相对数(比例“謂聶豁黯!比例相对数,简称比例。比例相对数的计算公式为(3)空间比较分析空间比较分析也叫横向对比分析,是将同类现象在同一时间不同空间的指标数值进行对比,反映同类现象在不同空间上的差异程度和现象发展的不平衡状况。空间比较相对数的计空间比较相对数=甲空间某ー现象的数值乙空间同类现象的数值算公式可写为用于比较的指标可以是绝对数,也可以是相对数或平均数。许多情况下用相对数或平均数来对比更能说明本质特征。(4)动态对比分析动态对比分析也称为纵向对比分析,将同一现象在不同时间上的指标数值进行对比,反映现象的数量随着时间推移而发展变动的程度及其趋势。动态对比分析最基本的方法是计算动态相对数(发展速度)=某ー现象的报告期数值同一现象的基期数值动态相对数即发展速度,其计算公式为(5)计划完成程度分析计划完成程度分析是将某一指标的实际完成数与计划数(或目标任务数)对比,用以反映计划数的完成程度或用来监督检查计划的执行情况。计划完成程度分析所计算的相对数通常用百分比表示,故也称之为计划完成百分比,其基本计算公式为计划完成相对如报震蠶蠹数皿。

314计算和应用计划完成相对数应该注意几个问题:①衡量计划完成程度必然是以计划数作为比较标准,所以计划完成相对数计算公式中的分子与分母不能互换。②计划完成相对数等于100%,表示刚好完成计划任务。③如果计划任务是以比某个基期数增减百分比的形式给出的,则计算计划完成相对数时分计划完成相对数:黑:竟靠嚣T。。。。子和分母都应包含基数而不能只看增减部分,即此时计算公式可写为④对于长期计划任务(如五年计划、十年规划),检査计划执行情况方法有累计法和水平法两种。累计法,指计算计划完成相对数时,实际数和计划数都是整个计划期的累计总和。水平法,指计算计划完成相对数时,实际数和计划数都只是整个计划期的最末一年(对于时点数值则是指计划期末)的数字。⑤在计划执行过程中,也可以利用上面第一个式子来说明计划完成进度。(6)强度、密度和效益分析强度、密度和效益分析是将同一时间同一空间两个内容不同而有联系的指标数值对比,可以反映现象的强度、密度、普遍程度和经济效益等。统计上一般把这种对比分析所计算的专由相对数一报告期某ー现象的数值田’奴ー同期另ー种有联系的现象的数值相对数称之为强度相对数,其计算公式可写为强度相对数的应用主要有以下几个方面:①将某些经济总量与人口总数对比,用来分析说明一个国家、地区或部门经济实カ的强弱。②反映现象的密度和普遍程度,说明社会服务能力。③将产出与投入的有关指标数值进行对比,反映经济效益。3.应用对比分析方法的原则在进行对比分析时,应注意以下几个方面的原则:(1)可比性原则可比性原则是指用来对比分析的指标必须具有可比性。(2)正确选择对比基准原则对比基准或基数是指对比分析的比较标准,也就是计算相对数的分母指标。(3)相对数与绝对数结合运用原则相对数是个抽象的比率,不能反映现象在绝对水平上的差异。在进行对比分析时,必须注意将相对数与有关的绝对数结合,既表明现象之间的联系和差异程度,又反映其绝对数量,

315这样オ能作出正确、深入的分析。(4)多种相对指标结合运用原则不同相对指标是从不同角度说明现象之间的联系和对比关系的。要全面、深入地分析和研究问题,就必须把有关的相对指标结合起来,对所研究问题进行多角度的观察和比较分析。二、指数的概念和种类指数的概念统计学中所讲指数(index)是ー种对比分析的指标,是统计指数的简称。从广义上讲,凡是两个数值对比而形成的相对数都可以称为指数。狭义的指数是ー种特殊的相对数,它反映的是由数量上不能直接加总的多个个体(或多个项目)组成的现象总体的综合变动程度。狭义的指数具有以下几个性质:(1)相对性指数是现象在不同时间或不同空间上对比形成的相对数,表示总体数量的相对变动程度。(2)综合性狭义指数不是反映单ー现象的数量变动,而是综合反映多个个体构成的现象总体的数量变动,所以它是ー种综合性的指标数值。(3)平均性由于各个个体的数量变动程度是参差不齐的,狭义指数所反映的只能是ー种平均意义上的变动程度,即指数是代表总体中各个体变化程度的一般水平的ー个代表性数值。2.指数的种类从不同的角度可以对指数进行不同的分类,主要分类有以下几种:(1)按其考察范围不同,指数分为个体指数和总指数①个体指数个体指数是反映单个个体或单个项目数量变动的相对数,如某企业某种产品的产量指数、单位成本指数和出厂价格指数都是个体指数。个体指数属于广义的指数。②总指数总指数是反映由多个个体或多个项目构成的总体数量综合变动的相对数,如反映某企业多种产品单位成本变动的成本总指数,反映多种商品销售量变动的销售量总指数,反映多种商品价格变动的价格总指数。

316(2)按指数化指标的性质不同,指数分为数量指标指数和质量指标指数①数量指标指数数量指标指数的指数化指标是数量指标。,有时也称之为物量指数。如产品产量指数、商品销售量指数、エ业生产指数等。②质量指标指数质量指标指数的指数化指标是质量指标。如商品价格指数、股票价格指数、单位产品成本指数、劳动生产率指数等。(3)按所反映的时间状况不同,指数可分为动态指数和静态指数①动态指数动态指数也称为时间指数,是同类现象在两个不同时间上的数量对比的结果,用于反映现象随时间变化而变动的方向和程度。根据所选择的基期不同,动态指数又可分为环比指数和定基指数。在指数数列中,各期指数都以其上期为对比基期,则称之为环比指数;各期指数都以某ー固定时期为对比基期,则称之为定基指数。②静态指数静态指数主要包括空间指数(或区域指数)和计划完成情况指数两种。空间指数是同一时间不同空间的同类现象数量对比的相对数,反映同类现象在不同空间或不同区域的差异程度。计划完成情况指数是利用总指数的方法,将多项计划任务的实际数与计划数对比,综合反映计划完成情况,。2.指数的作用指数的作用主要体现在以下几个方面:(1)综合反映现象总体变动的方向和程度。(2)根据现象之间的联系,利用有关指数测定某ー现象变动中各个构成因素的影响效应,即对现象总量或总平均数的变动进行因素分析。(3)利用指数进行有关的推算,或把相互联系的指数数列进行比较,可以观察现象之间的变动关系和趋势。(4)随着指数法在实际应用中的发展,运用指数还可以对多指标的变动进行综合测评。三、综合指数编制总指数的基本方法有综合法和平均法两种,习惯上分别把这两种方法计算的总指数称为综合指数和平均指数。

3171.编制综合指数的基本原理(1)编制综合指数的基本思路综合指数是设法将各个个体的数量先综合以后再通过两个时期的综合数值对比来计算的总指数。编制综合指数的基本原理有两个要点:①找到能够使全部个体的数量得以综合起来的因素。②固定同度量因素。(2)同度量因素的确定及综合指数的基本公式编制综合指数的关键在于加权即确定同度量因素。主要应从下述几个方面来考虑:①根据现象之间的内在联系来选择作为同度量因素的指标②同度量因素的确定还要取决于指数分析的目的③同度量因素所属时间的确定若以,表示总指数,q、p分别代表数量指标和质量指标,下标。和1分别代表基期和报告期,下标M表示同度量因素所属的时间("=°」或其他)。し和ン分别表示数量指标总指数和质量指标总指数,则综合指数的基本公式可写为1?=マ正因为对同度量因素所属时间(加)的选择不同,才由综合指数的基本公式衍生出了多个不同的指数计算公式,其中最主要、最常用的是拉氏指数和帕氏指数。2.拉氏指数和帕氏指数(1)拉氏指数把同度量因素固定在基期水平上所编制的综合指数统称为拉氏指数。拉氏数量指标综合指数ル和拉氏质量指标综合指数ち的计算公式分别为

318(2)帕氏指数把同度量因素固定在报告期所计算的综合指数称为帕氏指数。帕氏数量指标综合指数ルIセ和帕氏质量指标综合指数ン的计算公式分别为rZ9lPlし=マ(3)拉氏指数和帕氏指数的比较①拉氏指数将同度量因素固定在基期水平上(即以基期数值为权数),在定基指数数列中,各期指数不受权数结构变动影响,因而可比性更强。帕氏指数将同度量因素固定在报告期水平上(即以报告期数值为权数),无论是在定基指数数列中还是在环比指数数列中,权数结构都会随报告期而改变,因而会使各期指数的可比性受到影响。②虽然两种方法的计算结果都可表示指数化指标的综合变动程度,但两者的具体经济意义还是有一定差别的。③由于权数不同,依据同一资料计算的拉氏指数和帕氏指数的计算结果通常会存在差异,除非所有个体的变动程度相同(此时总指数的计算也就失去了意义)或权数结构不变(所有个体的同度量因素都按相同比例变化)。一般情况下,拉氏指数大于帕氏指数。注意:实际应用中,数量指标指数的计算较多采用拉氏指数公式,而质量指标指数的计算较多采用帕氏指数公式。1.其他形式的综合指数(1)马埃指数和理想指数

319①马埃指数Jー・%I2丿_Z%(Po+Pi)一!>ド。+2>必7V/>[Po+玖]乙g(>(Po+Pi)がo+Zgwi乙”"、2J马埃指数是将同度量因素固定在基期和报告期的平均水平,其具体计算公式为>ひ•.0+%]I厶マ2_丿乙Pid+gJ2>百0+工用%’一门;ー。+%]エお应+%)滋+2>m乙P二ゝ.②理想指数理想指数是帕氏指数和拉氏指数的几何平均数。费希尔(/国防”)论证了该指数具有优良的性质,称之为理想指数,故该指数也称为费希尔指数,其计算公式为但卩任ア《ン%怛p8oエPW1(2)将同度量因素固定在特定时间的综合指数(杨格指数)英国学者杨格(A.Yaung)提出ー种将同度量因素固定在特定时间的指数计算公式,故该指数也称为杨格指数。在该指数中,同度量因素既不固定在基期,也不固定在报告期,而是固定在某个特定时间。四、平均指数编制平均指数的基本原理编制平均指数有两大问题:

320(1)采用哪种平均法,是算术平均法还是调和平均法或几何平均法?(2)权数如何确定?2.算术平均指数算术平均指数是将个体指数①ノ会或必ル。)进行算术平均来求得的总指数,其权数一般有基期总值(ぐ。”)和固定权数(°)两种。(1)基期总值加权的算术平均指数W(%P。)CT一生一‘%.基期总值(。必。)加权的数量指标平均指数和质量指标平均指数的计算公式分别为—生=y'厶へ£(g°Po)JPo.ー・ア。式中:0。为基期总值的比重,即,二。0ア。且乙4=1。(2)固定权数的算术平均指数统计实践中编制算术平均指数时,常常将权数(通常是指比重权数)相对固定,即在较长时间保持不变。其计算公式为ム=工也0ク=汇旦©乙g。或乙p。上式中:。为固定比重权数,乙0=1(100%或1000%〇)。3.调和平均指数调和平均指数是将个体指数码/g。或アノア。)进行调和平均来求得的总指数,通常采用报告期总值(qpJ为权数。其计算公式为工沐囚

321ェ加加2.几何平均指数几何平均指数就是对个体指数计算几何平均数。以价格总指数的计算为例,若不加权,即为简单几何平均指数,其计算公式为=S/f!旦牝卜、PoJ若给个体指数赋予相应的权数エ,则有如下的加权几何平均指数公式五、指数体系与因素分析指数体系的概念指数体系是指几个有关指数所结成的数量关系式,这种指数体系表现为:ー个总量指数等于它的各个因素指数的乘积。这里的“总量指数”通常是价值总量指数(常简称为总值指数)。指数体系主要具有两个方面的作用:(1)用于指数之间的推算,即根据指数体系,利用已知指数推算未知指数。(2)用于因素分析,即以指数体系为基础,分析现象的总变动中各个因素的影响作用。3.对总量的两因素指数分析实际分析中,比较常用的指数体系是,数量指标指数用拉氏公式计算,质量指标指数用帕Zwpqエゝ=X2。とヨ/:

322氏公式计算,即エーZg%=(エゆー工g必)+(汇一Z%p°)总量增减变动的绝对数量与各因素影响数量之间的关系式为因素分析的一般步骤:①计算现象总量指数和总量变动的绝对差额;②分别计算各个因素指数及其分子分母之差,用以反映各个因素对所研究总量变动的影响程度和影响数量;③将以上分析进行综合和验证,作出文字分析说明。2.对总量的多因素指数分析指数体系用于两因素分析的基本原理可以推广到多因素分析,其要点如下:(1)要测定其中某个因素的影响时,必须将其余所有因素都要固定下来。(2)一般也是将数量指标固定在报告期,将质量指标固定在基期。(3)各因素的排列顺序要体现指标之间的相互关系,即要保证相邻指标两两相乘都有经济意义。3.平均指标变动的因素分析-vfx==7Xェf―Z/在分组条件下,总平均指标等于各组平均数的加权算术平均,即可见,在分组条件下,总平均指标的变动受两个因素的影响:(1)各组平均指标X;(2)各组次数或各组比重乙了,也就是总体结构。对总平均数指标变动进行因素分析需要计算如下三个指数:(1)总平均指标指数,可用ム表示。它反映总平均指标的变动程度,是报告期总平均指标或基期总平均指标哀

323rMエ甬エ-\>-Z〇マfXヤfoム=L=マ7■+〒M=エ演亏セ+エセテ7刈?--AL/o2エL/o之比,即(2)组平均数指数,也称固定构成指数,可用ム表示。它说明各组平均数的平均变动程度及其对总平均指标变动的影响程度。计算时将r乙x\f\毛f、十fXヽ'f\/—__jv■―▼V.'-ZZ'HJゝ―乙エ2/zエ各组次数ア(或由次数派生的比重工ア)固定在报告期,即(3)结构影响指数,可用り表示。它反映总体结构变动对总平均数变动的影响程度。计算时将各组平均水平xいテパヌイ"つーー・二固定在基期,即综上所述,对总平均指标变动的因素分析所依据的指数体系为Zー工»乙Mi总平均指标指数(ム)=组平均数指数(ム)X结构影响指数(り)用符号表示为或写为エエレッ同样,对总平均指标的变动也可以从绝对数进行因素分析。相应的数量关系为总平均指标变动的绝对量=组平均数变动的绝对影响量+结构变动的绝对影响量。即

324六、几种常见的经济指数工业生产指数工业生产指数是反映一个国家或地区工业产品产量的综合变动程度的ー种物量指数。最常见的计算方法有下面三种:(1)不变价格法不变价格是指连续计算指数时所采用的某ー特定时间的价格,它在较长时间内保持固定不,EhP"し=マ变,所以又称为固定价格。若以の代表不变价格,其具体计算公式可写为(2)エ业生产指数法工业生产指数法是ー种属于算术平均指数的方法,也就是对エ业产品的产量个体指数(或球(gw。)十一七)类指数)进行加权算术平均来计算工业生产指数,通常用基期增加值加权。其计算公式为

325公式中,%代表各工业产品(类)的产量个体指数(或类指数),妥丹代表相应产品(类)的基期增加值。工业生产指数一般都要连续编制。为了简便,实际中通常将权数相对固定(如五年不变)9o。采用固定权数(°)的エ业生产指数计算公式为(3)价格指数减缩法价格指数减缩法实质上是利用指数体系的原理,从价值量的变动中剔除价格变动的影响,由此来推算工业发展速度,即根据“价值量指数等于物量指数与价格指数乘积”的关系,将价值量指数除以相应的价格指数即得物量指数。这里的价值量一般指工业增加值。所以,计算方法又有单缩法和双缩法两种。①单缩法丁_,ー按现价计算的工业増加值发展速度‘ーエ^^’エ业品出厂价格指数用ー个价格指数对价值量指标进行减缩。单缩法计算工业生产指数的公式一般为②双缩法报告期按现价计算的工业总产值报告期按现价计算的中间投入r_エ业品出厂价格指数中间投入价格指数广基期工业増加值分别用两个价格指数对有关价值量指标进行减缩。其具体公式为2.居民消费价格指数居民消费价格指数是各国政府都非常重视的一种经济指数,在国外称为“消费者价格指数''(consumerpriceindex,简记为CPI)。它综合反映居民家庭所购买的各种消费品和服务的价格变动程度。其具体应用主要有下面几个方面:

326(1)用来测定通货膨胀。测定通货膨胀的程度通常以报告期的上期为基期.

327(2)反映货币购买カ的变动程度。(3)将价值量指标的名义值减缩为实际值,以消除价格变化的影响。我国居民消费价格指数的计算从各个代表规格品的个体指数开始,逐级计算基本分类指数、中类指数、大类指数和总指数。计算方法分别为代表品的环比价格指数(&)=报告期平均价格除以基期平均价格,即Kz=xx•••x基本分类环比价格指数(K)=〃个代表品的环比价格指数的简单几何平均数,即中类、大类和总体的环比指数都是逐级求加权算术平均数,如由大类环比指数(勺英マ=)工匝;「求总体环比指数的计算公式为mユ为权数)各级分类和总体的报告期定基指数"。W*1都等于相应报告期环比指数与上期定基指数的乘积,即计算公式为上述公式称为计算定基居民消费价格指数的链式拉氏公式。2.股票价格指数股票价格指数是反映某一股票市场上价格综合变动程度的相对数,简称股价指数。在成熟市场经济中,股价指数不仅是投资者决策的重要依据,也是国民经济的晴雨表。股价指数的计算方法很多,一般采用综合指数形式,以发行量(或流通量)为权数,权数可以固定在基期(拉氏公式),也可以固定在报告期(帕氏公式),大多数股价指数采用帕氏公式。

32810.2课后习题详解ー、选择题某企业计划要求本月每万元产值能源消耗率指标比去年同期下降5%,实际降低了2.5%,则该项计划的计划完成百分比为()。A.50。%B.97.4%C.97.6%D.102.6%【答案】D【解析】计划完成相对数ノ濯箫蠶数xゆ。。则该项计划的计划完成百分比=(1-0.025)/(1-0.05)=102.6%o?下列指标中属于强度相对指标的是()。A.产值利润率B.基尼系数C.恩格尔系数D.人均消费支出【答案】B【解析】强度相对指标是指两个性质不同而又有一定联系的指标对比的结果,可以表明事物现象的强度、密度、普遍程度等。A、C、D项均为性质相同的指标对比。下列指标中属于狭义指数的是()。A.某地区本月社会商品零售量为上月的110%B,某地区本月能源消耗总量为上月的110%C.某地区本月居民收入总额为上月的110%D.某地区本月居民生活用水价格为上月的110%【答案】A【解析】狭义的指数是一种特殊的相对数,它反映的是由数量上不能直接加总的

329多个个体(或多个项目)组成的现象总体的综合变动程度。若为了纯粹反映价格变化而不受销售量结构变动的影响,计算价格总指数时应该选择的计算公式是()。A.拉氏指数B.帕氏指数C.马埃指数D.理想指数【答案】D【解析】理想指数是帕氏指数和拉氏指数的几何平均数。其质量指标综合指数计j=区幽、エ£也’但Z.PM算公式为与帕氏质量指标综合指数之间存在变形关系的调和平均指数的权数应是()。A.q()poB.qipiC.q)poD.q(»pi【答案】B【解析】调和平均指数是将个体指数(%ル。或P"P。)进行调和平均来求得的总指数,通常采用报告期总值(9凍1)为权数。为了说明两个地区居民消费水平之间的差异程度,有关指数的计算最好采用()。A.拉氏指数B.帕氏指数C.马埃指数D.理想指数【答案】D

330【解析】理想指数在国际对比中应用较多,说明两个地区居民消费水平之间的差异程度最好采用理想指数。联合国编制的地域差别生活费指数也采用这个公式。同样数量的货币,今年购买的商品数量比去年减少了4%,那么可推断物价指数为().A.4.0%B.104%C.4.2%D.104.2%【答案】D货币购・カ指数=4エ=1042%【解析】货币购买カ指数是居民消费价格指数的倒数。所以物价指数为某公司报告期新职工人数比重大幅度上升,为了准确反映全公司职エ劳动效率的真实变化,需要编制有关劳动生产率变化的()。A.总平均数指数B.组平均数指数C.结构影响指数D.数量指标综合指数【答案】D某地区报告年按可比价格计算的工业总产值为基年工业总产值的110%,这个指数是ー个()»A.总产值指数B.价格指数c.エ业生产指数D.静态指数【答案】C【解析】エ业生产指数是ー个经济词汇,是用加权算术平均数编制的工业产品实物量指数,衡量制造业、矿业与公共事业的实质产出,衡量的基础是数量,基本原理是依据报告期各种代表产品产量与基期相比计算出个体指数

331我国深证100指数将基期价格水平定为1000。若某周末收盘指数显示为1122,此前一周末收盘指数显示为1100,即表示此周末收盘时股价整体水平比一周前上涨了()。A.2%B.22%C.122点D.12.2%【答案】A【解析】(1122-1100)/1100=2%二、判断分析题报告期与基期相比,某城市居民消费价格指数为110%,居民可支配收入增加了20%,那么居民的实际收入水平提高了10%?答:实际收入变动等于居民可支配收入变动/消费价格指数。实际收入水平只提高了9.1%。(120%/110%-100%=9.1%)〇某公司报告期能源消耗总额为28.8万元,与去年同期相比,所耗能源的价格平均上升了20%,那么按去年同期的能源价格计算,该公司报告期能源消耗总额应为多少?报告期能源消耗总额答:价格指数=基期能源消耗总額按去年同期的能源价格计算,该公司报告期能源消耗总额应为:28.8/1.2=24万元有人认为,定基发展速度等于相应环比发展速度连乘积,动态指数相当于发展速度。因此,定基指数也总是等于相应环比指数的连乘积。请判断这种说法是否正确。答:不正确。对于总指数而言,只有当各期指数的权数固定不变时,定基指数オ等于相应环比指数的连乘积。一般说来,根据同一资料计算的拉氏指数、理想指数与帕氏指数三者的数值之间存在什么样的关系?试解释说明出现这种关系的原因。答:拉氏指数,同度量因素固定在基期水平上所编制的综合指数。帕氏指数:同度量因素固定在报告期所计算的综合指数。理想指数:又叫费暄公式,将拉氏指数与帕氏指数的几何平均数作为计算指数的公式。

332理想指数大于帕氏指数,小于拉氏指数。因为理想公式将拉氏指数与帕氏指数的几何平均数作为计算指数的公式。拉氏指数和帕氏指数的偏差方向相反,数值大约相等,二者几何平均之后,消除偏差。理想指数更接近真实值。编制综合指数时,同度量因素的选择与指数化指标有什么关系?同度量因素为什么又称为权数?它与平均指数中的权数是否一致?答:同度量因素与指数化指标的乘积是一个同度量、可加总的总量。同度量因素具有权衡影响轻重的作用,故又称为权数。平均指数中的权数一般是基期和报告期总量(总值),或是固定的比重权数。结构影响指数的数值越小,是否说明总体结构的变动程度越小?一般说来,当总体结构发生什么样的变动时,结构影响指数就会大于1?可结合具体事例来说明。答:是。结构影响指数又称结构变动影响指数,是指以总体内部各组结构变动为基础,采用各组水平为权数加权平均计算的相对数。它说明总体内部各组结构变动的情况。结构影响指数公式:为什么在多因素指数分析中要强调各因素的排列顺序?“连锁替代法”是否适用于任一种排序的多因素分析?答:将各因素合理排序,オ便于确定各个因素固定的时期;便于指标的合并与细分;也便于大家都按统ー的方法进行分析,以保证分析结果的规范性和可比性。“连锁替代法”适用于按“先数量指标、后质量指标”的原则对各个因素进行合理排序的情况。某厂工人分为技术エ和辅助エ两类,技术工人的工资水平大大高于辅助エ。最近,该厂ー财务人员对全厂工人的平均エ资变动情况进行了动态对比,他发现与上年相比,全厂エ人的平均エ资下降了5%

333。而另一人则通过分析认为,全厂工人的工资水平并没有下降,而实际上工人的工资平均提高了5%。你认为这两人的分析结论是否矛盾?为什么?答:不矛盾。前者依据可变构成指数计算的结果。后者依据固定构成指数计算结果。三、计算题某企业只生产甲、乙两种产品,有关的产量和出厂价格资料如表10-1所示。产品计收単位产W出厂价格(元)務期报片期兩期报吿期甲件400500500450乙套10001100ゝ,960表10-1要求:分别用拉氏指数、帕氏指数、理想指数和马埃指数的公式计算该企业的产量总指数和出厂价格总指数,并比较各种计算结果的差异。解:分别按不同公式计算产量指数和出厂价格指数:—25ん乙小A,=LZq通拉氏指数:4「一Eqpt、乙小Af_エ小新帕氏指数:理想指数:

334计算结果如表10-2所示。表10-2拉氏指数帕氏指数理想指数马埃指数产量指数113.00%112.37%112.68%112.66%出厂价格指数114.00%113.36%113.68%113.66%拉氏指数较大,帕氏指数较小,而理想指数和马埃指数都居中且二者很接近。现有某行业中甲乙两个企业同一年的数据如表10-3所示,试从总量、结构、效益等方面对这两个企业的情况进行简要的比较分析。指标名称甲企业乙企业年平均职I.人数(人)35002100其中:令业技术人员数(人)1085798增加值(万元)365002.1500产品销件收入(万元)11520072000其中:新产品侑仰(万元)1960018000能源消耗总及(吨标准煤)84505900表10-3解:由表10-3知:表10-4—甲企业乙企业差值(甲一乙)指标名称职工人数350021001400技术人员占比0.310.38—增加值365(H)245(H)12000产品销售收入1152007200043200

335新产品销售占比0.170.25—能源消耗总量845059002550单位能源消耗的增加值4.324.15—(1)总量上比较甲企业职工人数为350〇,比乙企业多1400人。甲企业增加值36500万元,比乙企业多12000万元。在产品销售收入方面,甲企业为115200万元,比乙企业多43200万元。其中新产品占比为0.17,乙企业的新产品占高于甲企业新产品占比为0.25。乙企业相对于甲企业新产品占比较高。产品销售收入上,甲企业比乙企业多43200万元。甲企业的能源消耗总量比乙企业多2550吨标准煤。(2)结构上比较甲企业职工人数为350〇,其中专业技术人员1085人,占总职工人数的31%。乙企业的技术人员占职工数的38%。与甲企业相比,乙企业对于技术人员的需求量更大些。在产品销售收入方面,新产品占比为0.17,乙企业的新产品占高于甲企业新产品占比为0.25。说明乙企业相对于甲企业是ー个比较年轻的企业。(3)效益上比较甲企业增加值365()()万元,比乙企业多12000万元。在产品销售收入方面,甲企业为115200万元,比乙企业多43200万元。甲企业的能源消耗总量比乙企业多2550吨标准煤。甲企业单位能源消耗的增加值为4.32,而乙企业的单位能源消耗的增加值为4.15,这说明乙企业的单位经济效益高于甲企业。某地区2004〜2005年农产品的收购额及价格变动情况如表10-5所示。农产品收购金额(万元)收购价格上.涨率(%)2004年2005年A16018510B120110-5C20二2表10-5试计算该地区的农产品收购价格总指数,并据以分析农产品收购价格变化对农民收入的影响。/"乃=い】心=上=103.75。%,ヾI185丄110丄22305.54/41P1++r解:Pノア。凹1-100.951.02农产品收购价格提高使农民收入增加317-305.54=11.46万元。某投资者的投资组合由四种股票组成,其有关资料如表10-6所示。

336股県布股买入价(元)现价(元)股票数RA15.5017.00500B18.5020.25200C26.7526.00500D42.2545.50300表10-6试计算该股票投资组合的价格指数,并解释这个指数的经济意义。二17x500+20.25x200+26x500+45.5x30039200,つハ必15.5x500+18.5x200+26.75x500+42.25x30037500'解:股票投资组合的价格指数为:(帕氏指数)股票投资组合的价格指数为1.045。股票投资增长了4.5%。该指数表明,在股票数量不变的情况下,因股价变动引起的投资的变化量。某地区的全部工业企业分为四个部门,报告期与基期相比,这四个エ业部门的生产量分别增加了8%,10%,14%和5%。已知在该地区基期工业增加值中,这四个部门所占的份额依次为30%,25%,18%和27%。试求该地区的エ业发展速度。解:已知各部门生产量增长率(从而可知类指数),可采用比重权数加权的算术平均指数公式计算工业生产指数,即:=1.08x30%+l.lx25%+1.14xl8%+l,05x27%=108.77%

3372004年统计公报中提到“(2004)全年社会消费品零售总额达到53950亿元,比上年增长13.3%,扣除物价上涨因素,实际增长10.2%。分城乡看,城市消费品零售额35573亿元,增长14.7%:县及县以下消费品零售额18377亿元,增长10.7%。”根据这段材料,要求:①推算2004年我国消费品零售价格比2003年上涨了多少?②估计由于零售价格上涨对城乡居民消费支出的影响。1+13.3%_解:①由于零售总额指数=物价指数x零售量指数。得物价指数=1+10.2%102.8%o即2004年我国消费品零售价格比2003年上涨了:102.8%-100%=2.8%。某企业生产两种产品,其产量和成本资料如表10-7所示。产A升載单位产ttは位成本(元)基期报告期基期报告期A只100012501210B件22002300150152表157试从相对数和绝对数两个方面对该企业总成本变动进行因素分析。解:先分别计算出基期总成本Eg“o=342000报告期总成本21%ロ=362100假定的总成本5%2=360000;362100=1Q588%总成本指数:乎び。342000总成本增加额:E%必ー£4山。=362100-342000=2010()(元),汇gビ。360000Ia==へへ“=105.26%产量指数:Zq:Po342000由于产量变动产生的增加额:=360000-342000=18000(元)—62100メ。。58%单位成本指数:{幻ア。360000由于单位成本变动产生的增加额:Eg出ー£%ム=362100-360000=2100(元)三者的相对数关系和绝对数关系分别为:105.88%=105.26%x100.58%,20100=18000+2100(元)。

338计算结果表示:两种产品的总成本增加了5.88%,即增加了20100元。其中,由于产量增加而使总成本增加5.26%,即增加了18000元;由于单位成本提高而使总成本增加了。.58%,即增加了2100元。某企业生产两种设备,其产量及其消耗原材料的有关资料如表10-8所示。产品产取(台)原材料电耗(千克台)原材料价格(元ア克)星期报告期基期报告期基期报吿期甲100012003002702528乙5008002502202120表10-8要求:根据表中数据分析各种因素对这两种产品的原材料消耗总额的变动的影响。V^1200x270x28+800x220x20=12592000解:先计算基期和报告期总耗材价值v=1000x300x25+500x250x21=10125000,工/%“’]!2592000,、ー、,0I=JLE'==124=124°0总耗材价值指数:"2>悬叫10125000报告期与基期相比,总耗材价值平均增长24%。总耗材价值增加额:12592000-10125000-2467000T2>©严01200x300x25+800x250x2113200000…[_—rm-=13=130。0Pエム%―1012500010125000产量指数:报告期与基期相比,由于产量指数变动引起的总耗材价值平均增长30%由于产量变动引起的总价值变动:132000()0-1()125()00=3075000单耗指数:

339I一Z乙一1000x270x25+500x220x2し9060000ら9Tす报告期与基期相比,由于单耗变动引起的总耗材价值平均减少11%。由于单耗引起的总价值变动:9060000-10125(X)0=—10650001090000010125000=1.077=107.7%1000x300x28+500x250x2010125000原材料价格指数:报告期与基期相比,由于原材料价格引起的总耗材价值平均增长7.7%由于原材料价格变动引起的变动:10900000—10125000=775000某企业某种产品基期和报告期的销售情况如表10-9所示。产品等级单价(元/件)「售一(百件)幕期报告期展明报告明13°3558962252825303151517■»表10-9要求:对该产品平均价格的变动进行因素分析,并说明该企业产品质量变化对企业销售收入的影响。解:_♦一一先计算出基期总平均价格エ/。=26.2(元),行變报告期总平均价格乙エ=32.7692(元),右二ゴ"=28.3846总平均价格Zヵ(元)所以:总平均水平指数:

340=A=32-692=1,2507&26.2石ー耳=6.5692组水平变动指数:结构变动指数:n_32.7692え28.3846=1.1545マー彳=4.3846%28.3846三26.2=1.0834%-%=2.1846三者的相对数关系和绝对数关系分别为:125.07%=115.45%x108.34%,6.5692=4.3846+2.1846(元)〇产品质量变化体现在产品的等级结构变化方面,因此,根据结构影响指数可知,质量变化使总平均价格上升&34%,即提高了2.1846元,按报告期销售量计算,质量变化使总收入增加了28400(元),即:2.1846(元)X130(百件)=284(百元)=28400(元)〇10.3考研真题与典型习题详解ー、单项选择题某种产品单位成本计划规定比基期下降3%,实际比基期下降3.5%,单位成本计划完成程度相对指标为()。[浙江工商大学2015研]

341A、116.7%B、85.7%C、100.5%D、99.5%【答案】C【解析】单位成本计划比基期下降3%,即为基期的97%;实际比基期下降3.5%,即为基期的96.5%。计划完成程度相对指标=97%+96.5%xl00.5%。拉氏价格综合指数是价格个体指数的()。[东北财经大学2013研]A.简单算术平均数B.加权算术平均数C.简单几何平均数D,加权几何平均数【答案】B/N绝【解析】拉氏价格综合指数的计算公式为:‘ーズ%”。其中销售量g是权数,它在计算综合指数时将作为权数的同度量因素固定在基期。反映一国贫富程度常用的指标是()。[四川大学2013研]A.恩格尔系数B.基尼系数C.财富分配系数D.收入的价格弹性系数【答案】B【解析】恩格尔系数指食品支出总额消费支出总额的比重;基尼系数是用来综合考察居民内部收入分配差异状况的指标,反映贫富程度。某企业本年同上年相比,某产品的总成本增长了5%,单位产品成本上涨了10%,则产品产量()。[江苏大学2012研]

342Ao下降5%B,上升5%C.下降4.5%D.上升4.5%【答案】C【解析】总成本=单位产品成本x产品产量,根据题意产品的总成本增长了5%,单位产品成本上涨了10%,可得本年的产品产量比上年下降4.5%。“先综合,后对比’’是编制()的基本思路。[江苏大学2012研]A.总指数B.综合指数C,平均数指数D.个体指数【答案】B【解析】总指数的编制方法,其基本形式有两种:ー是综合指数法(先综合后对比方法):二是平均指数法(先对比再综合后取均值的方法)。若计算出三种商品的派氏价格指数为107%,则()。A.这三种商品的价格均上涨了B.这三种商品中可能有的商品价格并没有上涨C.这是在销售量变动后计算出的加权综合指数D.销售量的变动对指数没有影响【答案】B【解析】派氏价格指数是以报告期销售量(身)作为同度量因素的物价总指数,计算公式为ァエpm‘Zp。%。计算出三种商品的派氏价格指数是107%,并不意味着这三种商品的价格均上涨了,可能有的商品价格上涨了,有的商品价格下降了;派氏价格指数包含了销售量的变动,销售量如果变动了,对指数也会产生影响。

343四种股票构成的ー个投资证券组合,买入价、现价及股票数量资料如表10-10所示。表10-10股票每股买入价(元)现价(元)股票数量A15.5017.00500B18.5020.25200C26.7526.00500D42.2545.50300计算该证券组合的价格指数为()。A.97.20%B.104.53%C.107.69%D.109.68%【答案】B【解析】股票的价格指数一般以发行量为权数进行加权综合,所以该证券组合的ェ17.00x500+20.25x200+26.00x500+45.50x300,…ゝ。1==104.53%工p心15.50x500+18.50x200+26.75x500+42.25x300价格指数为:帕氏指数方法是指在编制价格综合指数时()。A,用基期的销售量加权B.用报告期的销售量加权C.用固定某ー时期的销售量加权D.选择有代表性时期的销售量加权【答案】B【解析】帕氏指数是1874年德国学者Paasche提出的ー种指数计算方法,该计算方法在计算价格综合指数时,把作为权数的销售量固定在报告期。其计算公式为:j一必生’ル0位某商场销售额2013年与2012年相比为120%,同期价格水平下降2%,则该商场销售量指数为()。

344A.133%B.122.4%C.122%D.118%【答案】B【解析】假设2012年的销售额为H,价格为p,那么,2012年的销售量为Hgm—“P,2013年的销售量为^><120%如=处7224%"pxQ-2%),则销售量指数为なし98。。。二、多项选择题某产品的生产总成本2007年为20万元,比2006年多支出0.4万元,单位成本2007年比2006年降低2%,则()。[首都经贸2009研]A.B.C.D.生产总成本指数为102%由于单位成本降低而节约的生产总成本为0.408万元产品产量指数为104%单位成本指数为98%【答案】ABCD=一"免=22=102%=ム【解析】生产总成本指数工0应。19.6;单位成本指数ZPA工演的,单位成本的变动影响绝对额=kPM一>PM=—0.408厶必40.98””,即单位成本降低而节约的生产总成本为0.408万元;由产102%=104%品总成本指数=单位成本指数X产品产量指数可得:产品产量指数=98%。北京现代汽车公司2003年生产轿车5.5万辆,预计2008年生产轿车60万辆,则()。[首都经贸2007研]A.产量指数为10.91倍或1091%B.这个指数是个体指数C.1091%是总指数D.1091是平均指数E.这个指数是数量指标指数

345【答案】ABE【解析】按所考察范围的不同,分为个体指数、组指数和总指数。其中,个体指数是考察总体中个别现象或个别项目数量变动的相对数;按所反映指标的性质不同,分为数量指标指数和质量指标指数。其中,数量指标指数是反映数量指标变动程度的相对数。三、判断题根据编制产品产量总指数的方法,可以得出编制数量指标综合指数的一般原则是;编制数量指标综合指数应当以报告期的质量指标为同度量因素。()[首都经贸2009研]【答案】x【解析】编制数量指标综合指数应以基期的质量指标为同度量因素,以便消除质量指标变动引起的变化。在指数体系中,为保持现象之间的客观联系,两个因素指数中的同度量因素必须是不同时期的。()[首都经贸2009研】【答案】〈在综合评价中,若采用改进的功效系数法则单项评价指标的评价分都在60到100之间。[西南财大2002研]【答案】x【解析】改进的功效系数计算公式为:く=スセヅ40-60⑶知・,其中,X0为第i个参评单位、第j项评价指标的实际值;ザ为第j项指标的不容许值;Xア为第j个指标的满意值,4为第i个参评单位第j个指标的功效系数值。一般情况下,实际指标值在不容许值和满意值之间,若X”优于ザ’,则用>100分;若X“劣于ザ),则々<60分。四、简答题什么是平均指标?平均指标在统计研究中有哪些作用?[浙江工商大学2014、2015研]答:(1)平均指标的概念:平均指标反映的是现象在某ー空间或时间上的平均数量状况,多用于社会经济统计中,一般用平均数形式表示。平均指标可以是同一时间的同类社会经济现象的一般水平,称为静态平均数,也可以是不同时间的同类社会经济现象的一般水平,称为动态平均数。(2)平均指标的作用:①平均指标可以反映现象总体的综合特征;②平均指标可以反映分配数列中各变量值分布的集中趋势;③平均指标经常用来进行同类现象在不同空间、不同时间条件下的对比分析,从而反映现象在不同地区之间的差异,揭示现象在不同时间之间的发展趋势。

346试论述总指数的编制方法和思路。[江西财经大学2008、2006研]答:总指数是对个体指数的综合,具体有两个途径:ー个是对个体指数的简单汇总,不考虑权数,称为简单指数,包括简单综合指数和简单平均指数;另ー个是编制总指数时考虑权数的作用,称为加权指数,包括加权综合指数和加权平均指数。(1)简单指数的编制①简单综合指数的编制将报告期的指标总和与基期的指标总和相对比,该方法的特点是“先综合,后对比”。计算公式为」EへF:式中,p代表质量指标;q代表数量指标;Ip代表质量指标指数;Iq代表数量指标指数。②简单平均指数的编制这是将个体指数进行简单平均得到的总指数。该方法的计算过程是“先对比,后综合“。计/=_AI=ユ算公式为:‘”;‘〃(2)加权指数的编制①加权综合指数的编制分别以质量指标和数量指标作为权数对比得到数量指标指数和质量指标指数。计算公式为:数量指标指数I=を丝质量指标指数し=守・・エq:p;エ/若将权数固定在基期,则称为拉氏指数;若将权数固定在报告期,则称为帕氏指数。②加权平均指数的编制这是以个体指数为基础,通过对个体指数进行加权平均来编制的指数。具体为:先计算所研究现象各个项目的个体指数,然后根据所给的价值量指标(产值或销售额)作为权数对Z—2な3Hp=Z叩4=-^4二+Z立必个体指数进行加权平均。计算公式为:工效;{殁和ユ;ケ争工区如由。什么是算术平均数指数和调和平均数指数?它们和综合指数有何关系?[上海财大1995研]答:算术平均数指数包括简单算术平均指数和加权算术平均指数,调和平均数指数包括简单调和平均指数和加权调和平均指数。加权算术平均指数和加权综合指数的联系:加权算术平均指数的计算结果和综合指数中的

347拉氏指数的计算结果完全相同。这是因为当个体指数与总值权数之间存在严格的ーー对应关系时,采用基期总值加权的平均指数,实际上是加权拉氏综合指数的变形。加权调和平均指数和加权综合指数的联系:加权调和平均指数的计算结果和综合指数中的帕氏综合指数的计算结果完全相同。这也是因为当个体指数与总值权数之间存在严格的ーー对应关系时,采用报告期总值加权的平均指数实际上是帕氏综合指数的变形。什么是指数体系?它有何作用?答:(1)指数体系是指指数之间存在的相互联系所构成的体系。一般地说,三个或三个以上在性质上相互联系、在数量上存在一定关系的指数便构成指数体系。利用指数体系可以分析社会经济现象各种因素变动,以及它们对总体发生作用的影响程度。(2)利用指数体系进行因素分析,主要分析如下两方面的问题:①分析现象总体总量指标的变动受各种因素变动的影响程度。即利用综合指数体系,从数量指标指数和质量指标指数的相互联系中,分析各个因素的变动影响关系。例如,编制多种产品的销售量指数和价格指数,分析销售量和价格的变动对销售总额变动的影响。②分析社会经济现象总体平均指标变动受各种因素变动的影响程度。即利用综合指数编制的方法原理,通过平均指标指数体系来进行分析。居民消费价格指数有哪些作用?答:居民消费价格指数是反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格变动趋势和程度的一种相对数。直观上,它可以反映实际收入和实际消费水平的变动。它还具有以下几个方面的作用:(1)反映通货膨胀状况。通货膨胀的严重程度是用通货膨胀率来反映的,它说明了一定时期内商品价格持续上升的幅度。通货膨胀率一般以居民消费价格指数来表示。(2)反映货币购买カ的变动。货币购买カ是指单位货币能够买到的消费品和服务的数量〇居民消费价格指数上涨,货币购买カ则下降,反之则上升,因此,居民消费价格指数的倒数就是货币购买カ指数。(3)反映对职エ实际エ资的影响。消费价格指数的提高意味着实际エ资的减少,消费价格指数下降则意味着实际エ资的提高。

348三、计算题三种商品基期与报告期的单价与销售量资料如表10-11所示:表10-11商品单位销售量单价(元)基期报告期基期报告期甲套505556乙厶5085109丙吨100951012要求:(1)计算三种商品价格的拉氏指数。(2)计算三种商品销售量帕氏指数。(3)说明由于价格变动和销售量变动而带来的销售额的变动。[东北财经大学2013研]T工ユ仅6x50+9x50+12x100r必5x50+10x50+10x100解:(1)三种商品价格的拉氏指数为:=114.62%,=107.71*6,6x55+9x85+12x956x50+9x50+12x100(2)三种商品销售量的帕氏指数为:6x55+9x85+12x955x55+10x85+10x95(3)三种商品价格的帕氏指数为:三种商品销售量的拉氏指数为:5x55+10x85+10x95=118.57°〇,5x50+10x50+10x100

349必念=6x55+9x85+12x95=巨=]2771%Vpc^05x50+10x50+10x1001750①从相对变动水平来看,三种商品的销售额指数为:三者之间的数量关系为:127.71%=107.7l%xl18.57%。即报告期与基期相比,这三种商品的销售额提高了27.71%,其中由于销售量的变动使销售额增加了18.57%,由于价格的变动使销售额增加了7.71%。②从绝对变动水平来看:销售额变动=工0%ーエア。9。=2235_1750=485(元),销售量变动的影响额=?>必ー{「。%=2075-1750=325(元),价格变动的影响额=工「修一エア⑼=コ35-20:5=160(元),三者之间的数量关系为:485元=325元+160元,即报告期与基期相比,这三种商品的销售额增加了485元,其中由于销售量的变动使销售额增加了325元,由于价格的变动使销售额增加了160元。某地区粮食作物资料如表10-12所示。[深圳大学2006研]粮食作物族期报吿期播种面积(fa)単位面积产量(千克)播种面积(苗)単位面积产量(千克)A20002001000200B22003002000315C40004004600440合计8200—7600—表10-12(1)分别编制该地区粮食作物总平均单位面积产量的可变指数、结构影响指数和固定构成指数;(2)从相对数和绝对数的角度进行总平均单位面积产量变动的因素分析:(3)进一步地,综合分析播种面积变动和总平均单位面积产量变动对该地区粮食作物总产量的影响。解:由表10-12中数据可得:表1043—基期报告期总产量(

350千克)粮食作物播种面积fo(亩)单位面积产量X〇(千克)播种面积住(亩)单位面积产量X।(千克)基期Xofi)■报期XofiA20002001000200400000200000200000B220030020003156600006300006(XX)00C40004004600440160000020240001840000合计8200——7600——2660(XX)28540002640000(1)由表10-13数据可得:SZこん324.39可变指数=Zモヘー乙セエ=34ロ=10708%工エエん324.39结构影响指数=驾+•:舒一。固定构成指数=(2)从绝对数上看可变指数=结构影响指数x固定构成指数115.76%=107.08%x108.11%从相对数上看エ毡亠/=375.53-324.39=51.14(千克)总平均单位面积产量的绝对额=厶厶、

351结构影响变动绝对额=厶ム、(千克)ーエ^ー三二ム=375.53-347.37=28.16Yf,エエ各组变量水平变动额=厶ユ(千克)分析结果表明:从相对数方面看,该粮食作物总平均单位面积产量提高了15.76%,这是因为播种面积变动影响使总平均提高了7.08%,各种粮食作物单位面积产量变动使总平均单位面积产量提高了8.11%,而这共同作用的结果;从绝对数方面看,该粮食作物总平均单位面积产量报告期比基期增加51.14千克,这是因为播种面积变动使总平均面积产量增加22.98千克,各种粮食作物单位面积产量变动使总平均面积产量增加了28.16千克的共同结果。(3)从绝对数上看,播种面积变动对该地区粮食作物总产量的影响额为:エセエーエセん=2640000—2660000=-20000(千克)エ2640000Zそん2660000从相对数上看,播种面积变动对该地区粮食作物总产量的影响程度为:え网エーt=2854000-2640000=214000(千克)从绝对数上看,总平均单位面积产量变动对该地区粮食作物总产量的影响为:エセエ_28540002640000=108.11%从相对数上看,总平均单位面积产量变动对该地区粮食作物总产量的影响为某企业生产情况如表10-14所示。要求:遵循综合指数编制的一般原则,计算:(1)三种产品的产量总指数和价格总指数;(2)进行总产值变动的因素分析。表10-14

352—计量单位生产量价格(元)产品名称报告期基期报告期基期甲乙丙台件只360200160300200140150010002501100800250解:根据已知资料可得综合指数计算表,如表10-15所示。表10-15综合指数计算表产品名称qopoqp,qp甲乙丙330000160000308003960001600004000054000020000040000合计520800596000780000エ处ェqg596000520800=1.1444%114.440〇(1)产量总指数:780000596000=1.3087*130.87°。价格总指数:(2)产值变动因素分析:ェ91P1_780000汇。が〇ー520800=1.4977%149.77%产值总指数:相对数分析:149.77%^114.43%x130.87%即该企业总产值上涨49.77%,是由于产量增长14.43%和价格上涨30.87%两个因素共同作用的结果。

353Z,q必=(Z一Wo)+(%%小一Z%/)绝对数分析:259200=75200+184000即该企业总产值增加259200元,是由于产量增长使产值增加75200元和价格上涨使产值增加184000元的结果。

354第十一章统计决策11.1复习笔记ー、统计决策的基本概念统计决策的概念(1)决策的定义决策,是指在占有一定信息的基础上,利用各种方法,对影响特定目标的各种因素进行计算和分析,从而选择关于未来行动的“最佳方案’’或“满意方案’’的过程。(2)狭义统计决策的三个基本特点①它研究的是非对抗型的决策问题决策问题可分为两大类:对抗型决策问题和非对抗型决策问题。对抗型决策是由多个不同的决策主体在相互竞争和对抗中进行决策。非对抗型决策只有一个决策主体,进行决策时,只要考虑可能出现的不同状态,而不必考虑对方可能采取的策略。②它研究的是非确定型的决策问题按照对客观条件的不同把握程度,决策可分为确定型决策和不确定型决策。在有关条件可以完全确定的情况下进行决策,称为确定型决策。在有关条件不能确定的情况下进行决策,称为不确定型决策。不确定型决策可分为完全不确定型决策和风险型决策。在对各种条件发生的概率一无所知的情况下进行决策,称为完全不确定型决策。在对各种条件发生的概率(可能性大小)有所了解的情况下进行决策,称为风险型决策。③它是ー种定量决策2.统计决策的基本步骤ー个完整的统计决策过程,包括以下几个基本步骤:(1)确定决策目标决策目标,是在一定条件制约下,决策者希望达到的结果。反映决策目标的变量,称为目标变量。按照决策目标的多少,决策问题可分为单目标决策和多目标决策。①单目标决策当决策所要求达到的目标只有一个时,称为单目标决策。②多目标决策

355当决策所要求达到的目标不止ー个时,称为多目标决策。(2)拟定备选方案一般来说,备选方案应在两个以上。备选方案是决策者可以调控的因素,备选方案中所调控的变量称为行动变量。所有备选方案的集合称为行动空间。为了拟定合适的备选方案,必须广泛收集有关的信息,认真听取各方面人员的意见,充分发挥主动性和创造性。(3)列出自然状态自然状态(简称状态),是指实施行动方案时,可能面临的客观条件和外部环境。所有可能出现的状态的集合称为状态空间,而相应的各种状态可能出现的概率的集合称为状态空间的概率分布。(4)测算结果为了从各种备选方案中挑选出合适的方案,需要测算不同方案在各种状态下可能实现的目标变量值,即不同方案在各种状态下的结果,所有的结果构成结果空间。(5)选择“最佳”或“满意”的方案(6)实施方案方案确定之后,必须投入人力、物力和财カ将其付诸实施。由于以上的决策是根据对未来的预计作出的,因此,所选择的方案是否真正合适,还需要通过实践的检验。同时,还应将实施过程中的信息及时反馈给决策者。如果实施结果出乎意料,或者自然状态发生重大变化,应暂停实施,并及时修正方案,重新决策。2.收益矩阵表表11T收益矩阵表状态仇仇・•凯概率P1Pt-•P.方勺%】*•へa2*案・・・•••♦・・・・%-收益矩阵表是求解统计决策问题的重要工具。其基本形式如表11-1所示。收益矩阵表由以下几部分组成:

356(1)行动空间ス=(%,%,…ルK)(2)状态空间。乂%%…,%)产=(月段…㈤(3)状态空间的概率分布(月是纟出现的概率)P20sp=1

357后悔值又称机会损失值,即由于决策失误而造成的其实际收益值与最大可能的收益值的差ケ=M地(%⑼)一生距。方案?在状态纟下的后悔值,可按下式计算式中:.VhxQqM)是在第ノ种状态下,正确决策有可能得到的最大收益,久是收益矩阵的元素。如果实际选择的方案正好是这种状态下的最优方案(有可能带来最大收益的方案),则后悔值为0;如果实际选择的方案不如最优方案,决策者就会感到后悔。后悔值越大表明所选的方案与最优方案差距越大。显而易见,シ2°。最小的最大后悔値,准则的数学表达式カ!ノI”。(4)折中准则该准则认为,对未来的形势既不应盲目乐观,也不应过分悲观。主张根据经验和判断确定ー个乐观系数6(0'6=1),以6和1-6E(0(%))=叫况为}+(1-6)Min[q^]分别作为最大收益值和最小收益值的权数,计算各方案的期望收益值臼。(4))。a=MaxE(Q[a^以期望收益值最大的方案作为所要选择的方案。该准则的数学表达式为(5)等可能性准则日。(生))=ー汇れ(:=12・ノ)nZ.该准则的数学表达式为aヽ""®04"2.各种准则的特点和适用场合表11-2列出了根据不同准则选取的方案。

358选拝的方案6案L方案三方案二方案方案二所依据的准则此大的收大收益値准则博大的最小收益值准則坡小的最大后悔值冷则折中准则(a=0.6)等可能性册则表11-2各种准则决策结果的比较(1)最大的最大收益值准则事实上是假定未来最理想状态(有可能出现最大收益值的状态)发生的可能性很大,并在这ー前提下来选择收益最大的方案。(2)最大的最小收益值准则事实上是假定未来最不理想状态(有可能出现最小收益值的状态)发生的可能性很大,并在这一前提下来选择收益最大的方案。(3)最小的最大后悔值准则是将能够获利而未获利也看成是一种机会损失,并假定发生较大的机会损失值的状态出现的可能性也较大,在这ー前提下选择机会损失值最小的方案。(4)折中准则和等可能性准则都是以各种方案的收益的期望值作为选择方案的标准。该准则只适用于对未来各种状态发生的可能性完全心中无数的场合。三、一般风险型决策自然状态概率分布的估计一般风险型决策中,所利用的概率包括客观概率与主观概率。客观概率是一般意义上的概率可来源于频率估计,通常是由自然状态的历史资料推算或按照随机实验的结果计算出来的。主观概率是基于自身的学识、经验作出的对某ー事件发生的可能性的主观判断。2.风险型决策的准则风险型决策常用的决策准则有以下几种:(1)期望值准则该准则是以各方案收益的期望值的大小为依据,来选择合适的方案。具体决策时,可按下E(0(q))=Z(i=L2,….j-i式计算收益的期望值

359式中:国。(4))是i方案的收益的期望值:心ノ是i方案在出现ノ状态时的收益值;巧是ノ状态出现的概率。收益的期望值越大,表明平均来说,该方案获得的收益也越大。因此,可将各方案中收益期望值较大的方案作为最佳方案。(2)变异系数准则当出现两个方案收益的期望值相差不大的情况时,应进ー步观察各方案的方差,选择其中方差较小的方案。为此,可以进一步用变异系数作为选择方案的标准,以变异系数较低的方案作为所要选择的方案。这里需要注意:变异系数准则必须在期望值达到ー定数额的前提下才能运用,否则可能得出不正确的结论。For(a.)=£((2(a))=yi%ノ-(q))ルノ(i=L2,…*m)方差「‘什(4)和变异系数匕的计算公式如下回生(3)最大可能准则最可能状态,是指在状态空间中具有最大概率的那ー状态。按照最大可能准则,在最可能状态下,可实现最大收益值的方案为最佳方案。(4)满意准则满意水平,是指决策者认为比较合理、可以接受的目标值。将各种方案在不同状态下的收益值与目标值相比较,并以收益值不低于目标值的累积概率为最大的方案作为所要选择的oC=a.,6=L2,…,=…,冷方案メ。该准则的数学表达式如下式中:ス是给定的满意水平;0%©丿是方案在ノ状态下的收益;ア便外©)セイ是各方案收益值不低于目标值状态的累积概率。注意:利用该准则的决策结果,与满意水平的高低有很大关系。满意水平一旦改变,所选择的方案也将随之改变。2.利用决策树进行风险型决策

360图111决策树结构图决策树由决策点、方案枝、机会点、概率枝和结果点组成(决策树的具体结构如图11-1)。利用决策树对方案进行比较和选择,一般采用逆向分析法,即先计算出树形结构末端的条件结果,然后由此开始,从后向前逐步分析。四、贝叶斯决策贝叶斯决策的定义贝叶斯决策,是指利用补充信息,根据概率计算中的贝叶斯公式来估计后验概率,并在此基础上对备选方案进行评价和选择的ー种决策方法。2.贝叶斯公式与后验概率的估计设某种状态纟•的先验概率为ア通过调査获得的补充信息为线ド给定时,ム的条件概率(似然度)为?彩/耳),则在给定信息4的条件下,可用以下贝叶斯公式计算大小pめp・同日的条件概率即后验概率ア。上式的分母是4出现的概率ア(与)。3.先验分析与后验分析自然状态的概率分布有先验概率与后验概率之分。与之相对应,决策分析也可分为先验分析和后验分析。先验分析是利用先验概率进行决策,而后验分析则是利用后验概率作为选择与判断合适方案的依据。

3612.后验预分析。在完整的贝叶斯决策过程中,在正式进行补充信息的调查之前,还需要将先验分析最佳方案的期望收益与各种可能的后验分析最佳方案的期望收益加以比较,了解收集补充信息所需的费用和可能带来的收益,对是否值得进ー步收集补充信息的问题作出判断,并选择最佳的收集补充信息的方案。这ー环节被称为后验预分析。

36211.2课后习题详解ー、选择题收益矩阵表包括的主要内容有()。A.状态空间B.行动方案C,状态的概率分布D.收益矩阵【答案】ABCD【解析】收益矩阵表主要由行动空间、状态空间、状态空间的概率分布、收益矩阵四部分构成。以下决策准则属于完全不确定型决策准则的是()。A,最大可能性准则B,期望值准则C,最小的最大后悔准则D.折中准则【答案】CD【解析】完全不确定型决策是在对状态的概率分布ー无所知的情况下进行决策分析。其决策准则有:①最大的最大收益值准则;②最大的最小收益值准则;③最小的最大后悔值准则;④折中准则;⑤等可能性准则。AB项属于风险型决策准则。贝叶斯决策与一般风险型决策的主要区别在于()。A.利用主观概率B.计算后验概率C,后验分析D,决策准则不同【答案】BC【解析】在一般风险性决策问题中,自然状态的概率是作为已知条件给出的,事

363先给出的各种状态的概率(又称为先验概率)常常是不准确的。而贝叶斯决策是利用补充信息,根据概率计算中的贝叶斯公式来估计后验概率,并在此基础上对原来估计的概率进行修订,这种用后验概率代替先验概率再进行贝叶斯决策,就成为后验分析法。因此BC项正确。有人决定购买中奖概率极低的体育彩票追求一定的收益,其依据的决策准则是()。A.期望值准则B.最小的最大后悔准则C,最大的最大收益值准则D.满意准则【答案】D【解析】购买体育彩票,尽管其中奖的概率很小,但却有机会用极小的代价获得购买彩票者满意的巨大收益。因此,购买体育彩票采用的是满意准则。二、计算题某企业拟开发生产ー种新产品,有三个方案可供选择。其收益矩阵表如表11-3所示。状太a需求大需求中需求小方方案一400100-140方案二200200-20案方案二000表11-3试根据完全不确定型决策的五种决策准则,选择合适的方案(假定乐观系数为0.6)解:(1)根据最大的最大收益值准则,应该选择方案ー。(2)根据最大的最小收益值准则,应该选择方案三。(3)在市场需求大的情况下,采用方案一可获得最大收益,故有:maxQ(q:4)=400在市场需求中的情况下,采用方案二可获得最大收益,故有:max。(ム,2)=200在市场需求小的情况下,采用方案三可获得最大收益,故有:

364根据后悔值计算公式。=m賢。(ス同)一%,可以求得其决策问题的后悔矩阵,如表11-4表11-4后悔矩阵表状态需求大需求中需求小方案一0100140方案二200020方案三4002000根据最小的最大后悔值准则,应选择方案ー。£(0(^))=06x400+(1-0.6)x(-140)=184EQ(%))=0-6x200+(1-0.6)x(-20)=112(4)£(0(^3))=0-6x0+(1—0.6)x0=0由于在所有可选择的方案中,方案一的期望收益值最大,所以根据折中原则,应该选择方案一))-^(400-100-140)-120ど(0(%))=%(200+20〇-20)-126.67⑸夙酮))=%(0+0-0)=0因为方案二的期望收益值最大,所以按等可能性准则,应选择方案二。设某贸易公司近期有3笔生意可做,其收益矩阵表如表11-5所示。状态仇仇仇徴率0.40.40.2方方案一300150-150方案二200200-100案方案三10010080表11-5(1)根据期望值准则和变异系数准则进行决策;(2)如果该企业希望取得200万收益,试问该企业宜采用何种决策准则?应选择何种方案?(3)如果该企业必须确保80万收益用于偿还到期的债务,试问该企业宜采用何种决策准则?应选择何种方案?解:E(即=300x0.4-150x0.4-150x02=150三个方案的期望值:

365E(0,)=200x0.4-200x0.4-100x02=140E(ft)*100x0.4*100x0.4-SOxOJ^d三个方案的变异系数:(司)_-^300-150):x0.4-(150-150》x0.4+(-150450)-x02_[及R)1501.095=JVar(冬).^200-140)-x0.4-(200-140):x0.4-(-100-140尸x02,•E(e.)-1400.857一いar(%)ーイ100-96):x0.4+(1。0-%):x0.4+(80*96)-x02一5E(4)%0.083如果单纯根据收益期望值大小为标准,应选择方案ー;如果将收益的期望值和方差结合在ー起考虑,选择方案二比较合适。(2)宜采用满意准则。利用这ー准则进行决策,首先要给出ー个满意水平。根据题意,200万收益为满意水平。设巴(其中ノ=L23)代表三种方案,则有:P{5q,e)2200}

366=0.4尸{5生,の2200}=0.4+04=0.8

367网5乌粗)2200}=0在备选方案中,方案二达到满意水平的累积概率最大,所以选择方案二。(3)宜采用满意准则。P{Qq,a)280}=0.4+0.4=-0.8卩{2(4,の280}=0.4+0.4=-0.8尸(Qi,©)280}=0.4+04+0.2=1在备选方案中,方案三达到满意水平的累积概率最大,所以选择方案三。假设航空事故中有35%确实是由于飞机自身结构有缺陷造成的。由于结构缺陷造成的航空事故被正确判定的概率是80%,而并非该原因却被错判的概率为35%。试问当某次航空事故被判断为结构缺陷引起的事故时,该事故确实属于结构缺陷的概率是多少?解:设由于飞机自身结构有缺陷造成的航空事故为セ由于其它原因造成的航空事故为り,被判定属于结构缺陷造成的航空事故为”,则根据已知的条件有:尸6)=0.35,グ%)=0.65,負与即=0.80,式セ^)=0.30当某次航空事故被判断为结构缺陷引起的事故时,该事故确实属于结构缺陷的概率为:P(d4)=ザ).負”⑸ミ眞も)れ与り)ー0.35x0$_.”的>1=0.35x0.8+0.65x0.3,某地区大约有1/5的司机在停车时将汽车钥匙留在车内,汽车钥匙留在车内的汽车被盗的概率是5%,而汽车钥匙不在车内的汽车被盗的概率只有1%。试问汽车被盗的司机将汽车钥匙留在车内的概率是多少?解:设钥匙留在车内为事件A,汽车被盗为事件BP(AB)»0.2x0.050.02x0.05*0.8x0.01♦55.560。

368则汽车被盗的司机将汽车钥匙留在车内的概率为:

369某食品公司拟生产ー种新的品种。事前分析,该品种受欢迎与不受欢迎的概率分别为0.65和0.35。若受欢迎可赢利80万元,不受欢迎则将亏损ー30万元。对此,有以下三种策略:(1)根据现有信息决定是否生产该品种:(2)自己进行进ー步市场调査,根据调査的补充信息进行决策。其调査费用为3万元,其预报受欢迎与不受欢迎的准确率均为70%;(3)委托市场调查公司调查,根据调査的补充信息进行决策。调查费用5万元,其预报受欢迎与不受欢迎的准确率均为95%。试画出该问题的决策树图,并利用贝叶斯决策方法,选择最佳的方案。解:决策树图略。(1)根据现有信息,生产该品种的期望收益为41.5万元大于不生产的期望收益,因此可生产。(2)自行调查得出受欢迎结论的概率=0.65x0.7+0.35x0.30=0.56,市场欢迎的后验概率=0.65x0.7/0.56=0.8125期望收益值=(77x().8125-33x0.1875)0.56+(-3x0.44)=30.25万元自行调查的可靠性不高,并要花费相应的费用,其后验分析最佳方案的期望收益值小于先验分析最佳方案的期望收益,所以不宜采用该方案。(3)委托调查得出受欢迎结论的概率=0.65x0.95+0.35x0.05=0.6825市场欢迎的后验概率=0.65x0.95/0.6825=0.9744期望收益=(75x0.9744-35x0.0256)0.6825+(-5x0.3175)=47.67万元委托调查虽然要付出较高的费用,但比较可靠,其后验分析最佳方案的期望收益大于先验分析最佳方案的期望收益,所以应采用该方案。

37011.3考研真题与典型习题详解ー、选择题册田忌赛马”是ー•个()〇A.典型的非对抗决策的问题B.典型的对抗决策问题C.风险决策问题D.完全不确定型决策问题【答案】B【解析】决策问题一般可分为两类:ー类是对抗性决策问题,另ー类是非对抗性决策问题。对抗性决策问题考虑的是两个或更多个决策主体在相互对抗或竞争中进行决策〇非对抗性决策问题只有一个决策主体,所考虑的主体拥有不同的状态。下列准则中,属于完全不确定型决策准则的是()。A.最小最大准则B.满意准则C.期望值准则D,二阶矩准则【答案】A【解析】完全不确定型决策是指当人们对状态空间中的各种状态出现的可能性(概率)一无所知的情况下进行的决策,其常见的行动评价准则有乐观准则、悲观准则、折中准则和最小最大准则。BCD三项是风险性决策评价准则。当乐观系数a等于1时,折中准则等价于()。A.最小最大准则B.乐观准则C.悲观准则D.满意准则【答案】B

371【解析】无论是乐观准则还是悲观准则都是极端准则。赫维斯的折中准则主张在这两种极端准则中寻求某种平衡,这种平衡是通过ー个的乐观系数a来完成的,其取值在。和1之间,a等于1时,折中准则等价于乐观准则,a等于〇时,折中准则等价于悲观准则。用决策树进行分析时,采用的方式是()。A.顺推B.逆推C.逻辑推理D,视情况而定【答案】B【解析】利用决策树对行动进行比较和选择,一般采用逆向分析法,即从树形结构的末端的结果点开始,从后向前逐步分析。绘制决策树时,一般用符号"ロ‘‘和“。’’分别表示()。A.决策点;状态点B.状态点;决策点C.决策点;概率D,概率;决策点【答案】A【解析】决策点表明决策者在这一点面临需要选择的各种行动,用符号“ロ''表示;状态点表明在此点采取某行动后会遇到的各种状态,用符号“。''表示。先验分析与后验分析的最大区别在于()。A,采用的决策准则不同B.利用的概率不同C.选择的最佳方案不同D,期望收益值不同【答案】B【解析】决策问题中状态的概率分布可分为先验概率分布和后验概率分布。在先验概率分布下,根据有关统计决策的准则所进行的决策分析,称为先验分析;在后验概率

372分布下,根据有关统计决策的准则所进行的决策分析,称为后验分析。二、简答题统计决策问题的基本要素是什么?答:决策问题的基本要素包括:(1)状态空间。=(色,供,…,斗),其中优为自然界(或社会)可能出现的某种状态,这种可能出现的状态的全体构成了状态空间。(2)行动空间A={a“a2,...,a,),其中勺为决策者(人)对自然界(或社会)采取的ー个行动或方案,所有可能行动的全体就构成了行动空间。(3)收益函数q=Q(a,0),其中。GA,8G®,数值q表示自然界(或社会)在处于状态〇而采取行动a时所得到的收益。统计决策的基本步骤是什么?答:统计决策的基本步骤包括:(1)确定决策目标变量反映决策目标的变量,称为目标变量。它是进行分析和研究的出发点和归宿。目标变量的选取除了应体现所研究问题的内容外,还应具有可测量性。(2)拟定行动空间行动空间中的元素就是未来决策中可能采取的行动。行动空间的拟定应综合、全面的分析和考虑实现目标的各种可能途径。在实际问题的解决中,还应考虑到行动的可操作性。(3)列出状态空间状态空间中的元素就是实施行动时,自然界(或社会)可能发生的某种客观条件和外部环境。不同的状态具有排他性,不可能同时发生。而某种状态的发生,一般事先是无法确定的,它往往是以一定的概率出现的。其对应的分布为P。,而8为真实状态。所有可能发生的状态的全体构成的集合,称为状态空间。。而(り,8G0)称为状态空间。上的概率分布。(4)计算结果空间计算所有不同状态下,采取每一种行动可能实现的目标量值。这种目标量值的全体,就构成了结果空间。目标量值可以是收益函数值,也可以是损失函数值等,依据决策方便为佳。(5)选择最优行动从结果空间中选择最优的行动,并不是一个简单的过程,通常是在一定的标准或准则下完成的。合理的选择标准也是最优行动取得的重要保证。最优行动也是相对于选择“准则’’而言的。(6)实施最优行动

373一旦最优行动确定,就应组织人力、物力和财カ付诸实施。行动是否真正有效,还需要实践的检验。行动实施者应将实施过程中的信息及时准确地反馈给决策者。若实施结果出现与预料有较大偏差,则应暂停实施,及时修正原决策。简述使用贝叶斯决策方法的优缺点。答:(1)优点①使用贝叶斯决策方法,同时利用了先验信息和抽样信息,提高了对状态出现的真实概率了解的准确度,从而可增强决策的可靠性。②利用该方法,还可对信息的价值以及是否要获得抽样信息做出科学的评价。(1)缺点虽然利用抽样信息进行决策有许多优点,但其缺点也非常明显,体现为:①延缓决策时间,因为决策是在抽样信息获得之后完成的,这个过程需要时间。②提高决策成本,因为抽样信息的获得需要一定的人力、物力和财カ。③增加决策的技术难度,因为抽样信息的获得和处理需要掌握一定的统计知识。若以决策正确为最高标准,那么这是十分必要的。三、计算题某厂生产ー种新产品,需要一种专用设备。有两种选择:购置新的设备或者改造现有设备。这两种方案的效果与原材料质量的好坏有密切关系,有关数据如表11-6所示。如果在投产前对原材料进行试验,需要花0.6万元的试验费,并且试验结果并不是百分之百可靠。根据经验,原材料质量好的试验后结果也好的概率是。.8,原材料质量差的试验后结果也差的概率是0.7。试问:有没有必要做试验?决策者该怎样决策?表11-6—原材料状态决策方案质量好(概率0.35)质量差(概率。.65)购置新设备30-15改造旧设备123解:这是ー个贝叶斯决策问题。先进行预后验分析,绘出决策树图(如图11-2所示),计算后验概率,然后计算各结点期望收益值。设Ai为原材料质量好事件,ん为原材料质量差事件,Bi为试验结果为原材料质量好事件,Bユ为试验结果为原材料质量差事件。于是ダ(4)=035,尸(4)=0.65,尸は[4)=0.8,尸18、レユ|=0.2P\5,j=0.7尸(JJ]ト|=0.3

374尸(4)=尸(スレ4)尸(劣)+尸(耳㈤)尸(冬)=0.475由边际概率公式得:

375尸(ム)=尸(ム⑷尸(4)+尸(号14)尸(4)=0525由贝叶斯公式得:尸(4困)ァ出⑷尸(4)尸(即4)尸(4)+尸(4|4)尸(4)=0.589产(4国)==0.411尸(んレも)尸(4)尸(巴レム)尸(4)+尸(4k2)尸(4),.、ア(314)尸(4)P45,)=—_I"_:._—=0.133F~尸(艮4尸(4)+尸(3、4尸(4),尸(Rレム)尸(4)尸4忸、)=।ヽ:、,ヽ=0.867「ア(易⑷尸(4)+尸(易|4)尸(4)各结点期望值为:点4:30x0.35—15x0.65=0.75点5:12x0.35+3x0.65=6.15比较点4和点5,选择改造旧设备方案。故点2:6.15〇点8:30x0.589-15x0.411=11.505点9:12x0.589+3x0.411=8.715比较点8和点9,选择购买新设备方案。故点6:11.505。点10:30x0.133-15x0.867=9.015点11:12x0.133+3x0.867=4.197比较点10和点11,选择改造旧设备方案,故点7:4.197c点3:

37611.505x0.475+4.197x0.525-0.6=7.068比较点2和点3,可作出决策,故认为可以先做试验。

377最后,作出后验分析。由图11-2的决策树图可知,如果试验结果为原材料质量好,则选择购买新设备为最优方案。如果0.750.350.650.350.650.5890.4110.5890.4110.1330.8670.1330.867试验结果为原材料质量差,则选择改造旧设备为最优方案。

378第十二章统计综合评价12.1复习笔记ー、统计综合评价概述统计综合评价的概念和基本步骤(1)统计综合评价的概念统计综合评价是对所要研究的对象,建立一个统计指标体系,并利用一定的方法和模型,对反映该现象不同侧面的指标进行综合分析,对被评价的事物从整体上作出定量的总体判断,从而揭示事物的本质及其发展规律。(2)统计综合评价的基本步骤①明确评价的目标②建立评价指标体系③评价指标的无量纲化处理④确定各评价指标的权重⑤计算综合评价结果⑥根据评价结果进行统计分析2.统计综合评价的局限性(1)综合评价结果具有相对性(2)综合评价结果有可能受主观因素的影响二、评价指标及其权重的确定选择评价指标的原则(1)目的性指标的选择应与研究目的相吻合,指标确实能反映评价对象的内容,对实现评价目标有明确的导向性。(2)客观性

379评价指标体系能够准确地把握所要研究问题的本质和内涵,能够客观地反映事物的特征。(3)全面性各评价指标能从不同的角度综合反映被分析对象的全貌,覆盖评价的基本内容。(4)敏感性所选择的指标能比较敏感地反映分析对象的变化。(5)相互独立性尽可能选择相关程度低的指标,这是因为如果指标之间相关程度过高,用ー项指标就能说明问题,若采用多项指标,事实上加大了这类指标的权重。(6)可比性评价指标要含义明确,计算口径一致,达到动态可比、横向可比。(7)可操作性评价指标体系要考虑资料收集的可能性,尽可能地利用现有的统计资料。2.评价指标的选择方法在实践中,根据上述原则选择具体评价指标的方法有两种:定性方法和定量方法。(1)定性方法常用的定性方法有:综合法和分析法。①综合法一般是通过研讨会或征询意见的方式,集中专家们的意见,以确定评价指标。该方法是借着专家的智力优势和经验以选择指标的。②分析法是将评价的对象划分为若干个组成部分或不同的侧面,明确各个侧面所要评价问题的内涵与外延,在这基础上,对每ー侧面分别选用一个或若干个指标以反映评价对象的特征。(2)定量方法①系统聚类法系统聚类法是通过判断指标之间的相似程度来筛选指标的ー种方法。系统聚类法的具体操作步骤如下:a.度量指标(类)间的相似程度。b.度量指标(类)间的距离。c.根据聚类图确定指标(类)的个数,从每类中选择出最具有代表性的指标。②极大不相关法假定有タ个可供选择的指标为再,め,…,X。,再与セ,…,X.是独立的,表明再是无法由其他指标来替代的,因此,以保留相关性最小的指标为选定的评价指标。极大不相关法的具体步骤如下:a.求出タ个指标值的相关矩阵火。

380&も)1^7其中分为る和モ的相关系数,反映モ和り的线性相关程度。b.计算复相关系数。对于あ和余下的"ー]个变量的线性相关程度,用复相关系数表示,记为⑷モ,三,…,Xw%,…,X,,其计算公式为p?=r;TR%1(i=i,2,...»p)根据公式计算内,氏…ノ:。C.比较外…ノ:的大小,其中值最大者,表明它与其余变量相关性最大。c确定临界值刀,当">ハ时,就删去七。重复以上步骤,逐步删去相关性大的指标,直到余下的指标个数与预先确定的指标体系容量相等为止。2.权重的分类(1)按权重的表现形式划分,可分为绝对数形式权重和相对数形式权重(或称比重权数)。(2)按权重的形成方式划分,可分为自然权重和人工权重。(3)按权重形成的数量特点划分,可分为定性赋权和定量赋权。(4)按权重与待加权的单个指标之间的相关程度划分,可分为独立权重与相关权重。3.确定权重的方法(1)统计平均法统计平均法是根据专家们对各评价指标所赋予的相对重要性系数分别求其算术平均数,所得的平均数作为各指标的权重。(2)最大组中值法最大组中值法的具体步骤如下:①请切个有关人员(一般要求用230)依权数分配表对评价指标体系U中的%,旳,…,“"个指标,分别赋予最合适的权数。②对专家所赋予的权数变量%(*12…エノ=12…㈤)分组。先从各个评价指标中找出最大值/u和最小值小-;再确定各评价指标分组的组数2;而后利用公式P计算出权数%分组的组距,将权数从小到大分为。组。③计算各组权数的频数与频率。④根据频数与频率分布情况,取最大频率所在组的组中值为指标%的权数勾1=1,2,…/),从而得出权重向量。若2?尸1,须做归ー化处理。(3)AHP(analytichierarchyprocess)构权法AHP构权法又称层次分析法,它的基本思路是:将复杂的评价对象表现为一个有序的递

381阶层次结构的整体,通过人们在各个评价项目间进行两两的比较、判断,进而计算各个评价项目的相对重要性系数,即权重。单准则AHP构权法确定权数的具体步骤如下:①确定指标的量化标准确定指标重要性的量化标准常用的方法有:比例标度法和指数标度法。比例标度法是以人们对事物质的区别的评判标准为基础,一般以5种判别等级表示事物质的等级差别。当评判需要更高的精度时,可以用9种判别等级。对判别等级量化,9个标度以数值表示。常见的标度值体系如表!2—1所示。取值マ义1~9标度5/5〜9/1标度9,9〜9“标度,与ノ同等市要(5/5«)1(9/9-)I,比ノ梢他市要3(6/4-)1.5(9/7=)1.286,比ノ明y更要§<7/3=)2.33(9/5=)1.8,比ノ强烈重赘7(8/2=)4(9/3=)3,比ノ极端庫密9(9/1=)9(9ハ=)9(5.5/4,5=^)1.222(9/8=)1.125介于上述相邻网级之间2、4、6.8(6.5/3,5=)1.875(9/6=)1.5币要程度的比较(7.5/2.5«)3(9/4-)2.25(8.5/1.5=)5.67(9/2-)4.5,与,的比较上述各数的倒数上述各数的倒数上述各敢的倒数表12-1比例标度值体系(重要性分数”)②初始权数的形成初始权数的形成步骤如下:a.将统计分析的目的、已建立的评价指标体系和初步确定的指标重要性的量化标准分发给各个专家,让专家们根据上述的比例标度值表所提供的等级重要性系数,独立地对各评价指标赋予相应的权重。b.根据专家们所给出的各个指标的权重,分别计算各指标权重的均值和标准差。c.将所得的均值和方差的资料反馈给专家,要求专家再次提出修改意见或更改指标的建议,并在这基础上重新确定权数。d.重复以上a〜c的步骤,直至获得较为满意的结果(或各专家对各个评价项目所确定的权

382数趋于一致)为止,便得到初始权数。③对初始权数进行处理a,建立判断矩阵A。b.计算判断矩阵A每一行各标度连乘积的N次方根セ。c.进行归ー化处理。5.对判断矩阵的一致性进行检验判断矩阵的一致性检验是指当需要赋权的指标较多时,矩阵内的初始权数可能出现相互矛盾的现象,对于阶数较高的判断矩阵,难以直观地对其一致性进行判断,这就必须进行ー致性检验。(4)变异系数法基本思想:在评价指标体系中,指标取值差异越大的指标,也就是越难实现的指标。为了消除各指标量纲不同的影响,用各指标的变异系数来衡量各项指标取值的差异程度。匕=2(i=L2,…各指标的变异系数="所・{匕各指标的权重占‘三、数据的预处理定性指标的量化定性指标主要有两类数据:定类尺度计量的数据和定序尺度计量的数据。对于定类尺度计量的数据,是无法真正量化的。对于定序尺度计量的数据,量化的主要方法有以下几种。(1)名次序数百分化名次序数百分化是将被评价单位的名次序数转化为在百分内的相对位置的ー种方法。具体x名次百分=100ー&(.咯次一0.5)操作步骤是:先对被评价单位排列名次,得到名次序数,而后利用以下公式计算名次百分。其中:x表示被评价对象所得的名次;〃是全部被评价单位数。(2)统计评分法统计评价法是对评价的不同等级赋予不同的分值,以此为基础进行综合评价。2.评价指标的无量纲化处理一般在完成资料搜集工作后,还需要进行消除量纲处理,即同度量处理。较常用的同度量处理方法有如下几种:

383(1)相对化处理法进行相对化处理,必须先对每个评价指标确定一个标准值,而后计算实际值与标准值之比〇指标有“正’‘、"逆'’之分。①正指标正指标,是指指标数值越大就越好的指标,例如,产值、利润、劳动生产率等指标。对正=—4xm指标的相对化处理公式如下②逆指标,是指指标数值越小就越好的指标,例如,单位产品成本、万元产值综合能耗、ガ=2xt物耗率等指标。对逆指标的相对化处理公式如下上式中:ズ为标准化后的数值:モ为实际值:Xバ为标准值。(2)功效系数法功效系数法是对多目标规划原理中的功效系数加以改进,从而把确定要评价的各项指标值转化为可以度量的评判分数。利用功效系数法进行消除量纲影响的处理,必须对评价的指标确定一对阈值,包括一个下限值(不容许值)和一个上限值(满意值),并通过功效系数公式计算出每项指标的评价d'=X:~X-.X40+60X-一眞分,其计算公式如下上式中:演为第i个指标实际值;工:'为第i个指标的不容许值;工"’为第i个指标的满意值,ス为第i项指标单项评分。

384在上述公式中,把指标值处于不容许状态看作及格状态,当某项指标值等于不容许值时,为60分。一般情况下,实际指标值在不容许值和满意值之间,若项比工ケ值更高,代>100分;若そ比ギ值更低,则ガ<60分。(3)标准化处理利用标准化处理的基本前提是:须进行标准化处理的变量服从正态分布。在标准化处理中,将变量值转化为数学期望为0,方差为1的标准化数值。具体操作步骤如下:①求出各变量(指标)的算术平均值(数学期望值)工和标准差区;•_る一为②利用公式’巴进行标准化处理。其中X;为标准化变量;X。为实际变量(指标)值;ス为各变量(指标)的算术平均值(数学期望值):6为标准差。③进行标准化处理的指标中若有逆指标,改变处理后的指标的符号。(4)最优值距离法最优值距离法是以各项评价指标的实际值与最优值之间的相对距离的大小作为衡量评价对象优劣的标准。其计算公式为耳=卩一眞)。其中巴•是第i个评价指标实际值与最优值之间的相对距离;ズ是第i个指标经过相对化处理后得到的数值。ん越小,表明实际数值与最优值越接近。四、综合评价模型加权算术平均综合模型采用加权算术平均综合模型计算综合评价指数,其基本公式如下综合评价指数=yxw.yw.上式中给定评价指标体系由〃个指标构成;セ为已经经同度量处理过的第i个评价指标的相对值,i=12••・,人%为各项指标的权重,%+/+…+叽=10°°。。加权算术平均综合模型具有以下特点:(1)适用于各指标相互独立的场合;(2)各评价指标间可以相互线性补偿;(3)评价的结果主要体现各项目各自的功能性。2.加权几何平均综合模型采用加权几何平均综合模型计算综合评价指数,其基本公式如下加权几何平均综合评价指数="mザ上式中给定评价指标体系由〃个指标构成;演为已经经同度量处理过的第i

385个评价指标的相对值,i=L2.….%ザ为各项指标的权重,%+%+…+%,=100%(=叽加权几何平均综合模型具有以下特点:(1)适用于各指标间有较强关联的场合;(2)对指标值(特别是较小值)变动的反映比加权算术平均模型敏感;(3)评价的结果主要体现各项目之间的均衡性;(4)项不能出现零或负值。

38612.2课后习题详解ー、判断题变异系数法赋权是ー种人工赋权法。【答案】错【解析】变异系数法不需要依靠专家先对各指标的权重作出评定,而是直接利用各指标所包含的信息通过计算得出指标的权重。它是ー种客观赋权方法。综合评价先对客观对象从不同的侧面、不同的角度讲行全面的分析与评价,故它完全地消除了主观因素的影响。【答案】错【解析】统计综合评价中,指标的选择、评价标准和权重的确定,常需要依靠专家的主观判断,很难完全避免主观因素的影响。资产负债率、万元产值消耗能源比率和物耗率皆为逆指标。【答案】错【解析】其中的资产负债率属于适度指标,并非越低越好。评价指标值若服从正态分布,可利用标准化方法进行消除量纲影响的处理。【答案】对【解析】利用标准化处理的基本前提是:须进行标准化处理的变量服从正态分布。进行归ー化处理后,权数之和一定为1。【答案】对【解析】根据归ー化计算的公式可以得出该结论。经过标准化处理后的数据X;取值范围°'X;41。【答案】错【解析】经过标准化处理的数值可能出现负值,也可能大于1。用加权平均综合模型计算综合评价指数,指数值越高表明评价对象的效益越好。【答案】对

387【解析】由加权平均综合模型计算方法可知,使用加权平均综合模型计算综合评价指数,一般而言,指数值越高表明效益越好。二、计算题现有7个指标,根据历史资料计算每两个指标的相关系数,建立如下相关系数矩阵,如表12-2所示。指标123456110.850.580.540.440.740.60210.550.560.560.340.62310.890.730.720.60410.740.110.72510.540.80610.667表12-2指标间相关系数试根据上述资料绘制聚类图。假定评价某ー项目的评价指标体系指标容量为4,请根据聚类图从中选择4个评价指标。解:由题中所给的指标间相关系数矩阵,可得距离矩阵表,如12-3所示。表12-3指标1234567123456700.1500.420.4500.460.440.1100.560.440.270.2600.260.660.280.590.4600.400.380.400.280.200.340将距离d排序,可知d34=0.U最小,dl2=0.15次之,d57=0.20再次之(如此类推),又该题中项目的评价指标体系指标容量为4,所以可在指标3和指标4中选择ー个指标,将它确定为第一个评价指标,又在指标1和指标2中选择ー个指标,将它确定为第二个评价指标,在指标5和指标7之间选择ー个指标,将它确定为第三个评价指标,确定指标6为第四个

388评价指标。该题的聚类图绘制如图12-1。距离0.200.150.15341257指标图12-1某电器公司为了解本公司某型号电冰箱的受欢迎程度,请客户对该型号冰箱从其制冷量、耗电量、耐用度及售后服务四个项目评价。对每ー评价项目,按满意10分、较满意8分、一般6分、较差4分等四个等级计分。现对收回的500个客户的调查卷的资料整理结果如表12-4所示,又假定各评价项目的权重分别为:0.3,0.2,0.3,0.2o要求:按总分评定法计算某型号电冰箱的得分。用估项目满意(10分)掷票数较满せ(8分)一般(6分〉较差(4分〉合计制冷№280160600500松电駅12020010080500耐用度16016010080500啓行朦务5050100300500表12-4四个评价项目的得分情况表解:该型号电冰箱的各个评价项目得分分别为(280x10*160x8-^0x6-0x4)制冷量得分=500=8.8820x10-200x8-100x6-80x4耗电量得分:500=7.44160x10*160x8-100x6-80x4耐用度得分:500=7.650x10*50x8+100x6*300x4售后服务得分:500=5.4所以,该型号电冰箱的总得分为8.88x0.3+7.44x0.2+7.6x0.3*5.4x02

389=7.512污水处理厂的经营管理状况综合评判是采用如下指标反映的:①每日污水处理量(千吨/日);②BODs去除率(%);③悬浮物去除率(%);④处理1吨污水消耗空气量(米3/吨);⑤去除1公斤BODs耗电量(度/公斤)。以上各项指标的权数为:0.10,0.30,0.30,0.15,0.15o又已知某污水处理厂按月记录的历史数据划分为三个等级,各等级的平均值和该厂2005年6月的实际指标值如表12-5所示。指标他位好中Z实际值毎大污水处理最千吨/日18.516.514.515.0BODs去除率%95.087.079.095.0悬浮物去除率%95.087.079.094.0处理1吨污水消恠を气H米L吨6.58.510.58.0去除1公斤BOな耗电量度/公斤0.851.051.251.05表12-5污水厂主要技术管理指标(1)以评语“好”为满意值,以评语“差”为不容许值,用功效系数法对上述资料进行同度量处理。(2)以评语“好”为最优值,用相对化处理法和最优值距离法对上述资料进行同度量处理。(3)对(1)的计算结果,采用加权算术平均法和加权几何平均法进行综合。(4)对(2)求得的与最优值的相对距离,用加权算术平均法进行综合。d:=セ「す、X40+60解:(1)功效系数法计算公式为:‘〈.一イノ依据题中所给数据,用功效系数法对其进行同度量处理如表12-6所示。表12-6指标单位满意值ゆ眞不容许值淄好中差实际值每天污水处理量BODs去除率悬浮物去除率处理1吨污水消耗空气量去除1公斤BODs耗电量千吨/日%%米リ吨度/公斤18.595956.50.8514.5797910.51.25100100100100100808080808060606060606510097.58580

390(2)题中所示5个指标中,每天污水处理量、BODs去除率、悬浮物去除率三项指标为正指标;处理1吨污水消耗空气量、去除1公斤BODs耗电量两项指标为逆指标。根据相对化处理公式:正指标:ゼ二项エ,逆指标:ゼ二ろエ依据题中所给数据,用相对化法对其进行同度量处理如表12-7所示。表12-7指标单位最优值ム好实际相对比率实际值与最优值的相对距离每天污水处理量BODs去除率悬浮物去除率处理1吨污水消耗空气量去除1公斤BODs耗电耳重千吨/日%%米3/吨度/公斤18.595956.50.85111110.810810.98950.81250.80950.189200.01050.18750.1905(3)各项指标的权数为:0.10,0.30,0.30,0.15,0.15,对(1)计算结果的数据进行综合:7:加权算术平均综合值=ソ'①采用加权算术平均法计算:65x0.1+100x03+97.5x0.3+85x0.15+80x0.15”0.1+0.3+0.3+0.15+0.15②利用加权几何平均综合计算:加权几何平均值=,をペ=严xlOO。,X97.5”x85"=89.72(4)加权算术平均与最优值相对距离=0.07877根据(2)的计算结果的数据,利用最优值距离法进行综合:S.«丑-X,)F+(l-xいヽ:+K+(i_x;)%.=J0.1892:x0.1+0.0105:x03+0.1875:x0.15+0.19052x0.15a0.1197最优距离综合值

39112.3考研真题与典型习题详解ー、选择题要评判社会的和谐程度如何,应采用()。A.定性分析B.定量分析C,单项评价D.综合评价【答案】D【解析】单项评价是利用单一的统计指标对事物的某ー个侧面作出评判;综合评价则是根据研究的目的,建立统计指标体系,对事物的各个方面进行定量分析,得出概括性的结论,从而揭示事物的本质及其发展规律。综合评价的主要特征是定量与定性相结合。要评判社会的和谐程度如何,必须从多个角度进行评价,故应采用综合评价。在对评价指标的数据进行预处理时,对于定性数据主要采用的是()。A.量化处理B,无量纲化处理C,相对化处理D.标准化处理【答案】A【解析】BCD三项是针对定量数据的处理方法。评价指标应尽量选择()的指标。A,相关系数高B,相关程度低C.定量D.精确度高【答案】B【解析】进行统计综合评价,必须建立一个能够从不同角度、不同侧面反映评价

392对象的评价系列,因此评价指标应选择相关程度低的,使之能从不同的角度和侧面反映评价对象。利用标准化进行同度量处理的基本前提是()。A.进行标准化处理的变量服从が分布B.进行标准化处理的变量服从t分布C.进行标准化处理的变量服从F分布D.进行标准化处理的变量服从正态分布【答案】D【解析】利用标准化处理的基本前提是:须进行标准化处理的变量服从正态分布〇在标准化处理中,将变量值转化为数学期望为0、方差为1的标准化数值。对判断矩阵的一致性进行检验时,常用的检验方法是计算()指标。A.平均值B.一致性比率C.特征根D.功效系数【答案】B【解析】判断矩阵的一致性检验是指当需要赋权的指标较多时,矩阵内的初始权数可能出现相互矛盾的现象,对于阶数较高的判断矩阵,难以直观地对其一致性进行判断,这就必须进行一致性检验。常用的检验方法是计算一致性比率指标。二、简答题简述综合评价的基本步骤。答:综合评价是根据研究的目的,建立统计指标体系,对事物的各个方面进行定量分析,得出概括性的结论,从而揭示事物的本质及其发展规律。其基本步骤如下:(1)明确评价的目标进行统计综合评价,必须先明确其评价的目标,即搞清楚为什么要进行综合评价。确定所要评价的对象、评价的精确度以及评价所要说明的问题等。(2)建立评价指标体系根据研究的目的,选择合适的统计指标,建立一个能够从不同角度,不同侧面反映评价对象的评价指标体系。(3)数据的预处理

393综合评价需要运用由多个指标组成的指标体系,而这些指标性质不同,计量单位往往也不ー样。因而必须先确定各单项指标的评价标准,对数据进行预处理,使之具有可比性,在此基础上才能综合汇总。评价指标的数据预处理包括两方面内容:①定性数据的量化处理对于用定类尺度和定序尺度计量的数据,一般称为定性数据。对于这类指标,可以对不同的评价等级分别赋予不同的评价分值,将它们转化为可以同度量的数。②定量数据的无量纲化对于用定距尺度和定比尺度计量的数据,一般称为定量数据,其计量单位多种多样,必须对这ー类评价指标进行无量纲化处理,即通过相应的数学方法处理,排除各项指标因计量单位不同以及数值数量间的悬殊差别所带来的影响,将不可综合的指标的实际值转化为可综合的评价值。(4)确定各评价指标的权重在综合评价中,权衡不同项目重要性的数值被称为权重,或称权数,在评价中,必须根据评价的目的和各个项目的内在含义对各个目标值赋予相应的权数。(5)选择合适的数学模型,综合单项评价结果根据已建立的评价指标体系和相应的权数体系,在单项评价的基础上,利用一定的数学模型,对单项评价结果进行汇总,计算综合评价得分。根据综合评价分值,判断、分析所要研究的现象。若参评的单位有多个,可以根据所计算的综合评价分值对这些参评单位进行排序、比较。简述统计综合评价的优点及其局限性。答:统计综合评价的主要特征是定量与定性分析相结合,它是在定性分析的前提下,通过现象的数量表现,对研究对象进行更深刻的、更全面的认识。(1)综合评价的优点表现在以下几个方面:①综合评价结果具有科学性综合评价是在定性分析的前提下,以数据为语言、以一定的数学方法为工具,通过分析现象总体的数量表现,从而达到全面、客观地评判复杂的现象总体,其评价结果具有科学性。②综合评价具有深化认识的作用在综合评价过程中,人们通过对评价指标的筛选、权重的确定和评价模型的选择,能够对所研究的现象总体由表及里、由此及彼的分析,从而掌握所研究的现象总体的本质特征、内在联系和发展变化规律,使统计认识得到进ー步的深化。③综合评价是发挥统计整体功能的重要手段

394综合评价把定量与定性分析融为一体,比一般的统计数据更综合、更系统、更清楚地反映客观实际情况,并便于对不同单位进行比较、排序,它是增进社会了解统计的重要窗口。所以,综合评价是提高统计工作的社会地位、发挥统计整体功能的重要手段。(2)由于目前统计综合评价的理论与方法还不是十分成熟,综合评价存在一定的局限性〇主要表现在以下两点:①综合评价结果具有相对性综合分析与评价尽管采用了一定的数学模式,其结果用数值表示,但它只有相对的意义,一般情况下,它仅适用于在性质相同的对象之间进行比较和排序。此外,采用不同的评价方法,有可能得出不同的结果。②综合评价结果常带有主观性在综合评价中,各指标的评价标准以及权数的确定,常常需要依靠有关专家来确定,不同的专家给出的标准和权重会有所差异,因此,综合评价的结果,往往带有一定的主观性。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
最近更新
更多
大家都在看
近期热门
关闭