欢迎来到天天文库
浏览记录
ID:41577766
大小:73.99 KB
页数:13页
时间:2019-08-28
《相关分析与回归分析(教案)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
第九章相关分析与回归分析教学目的与要求:相关分析是较常用的统计分析方法。本章的目的在于提供从数量上研究现象之间相互联系方法。该章主要讲述了相关分析、回归分析的基本理论和应用方法。学习本章的要求是:1、掌握相关关系与函数关系的区别2、能够利用相关系数对相关关系进行测定,并且掌握相关系数的性质3、明确相关分析与回归分析各自特点以及它们的区别与联系4、建立回归直线方程,计算估计标准误差,理解估计标准误差的意义重点掌握:1、相关分析的方法。2、回归分析的分析方法应用。技能点:1.培养应用相关与回归分析的基本理论和方法的能力;2・能对社会经济现象的依存关系进行合理的判断分析及预测。教学方式:用多媒体课件讲练结合。课时安排:理论4学时,实训4学时第一节相关分析的意义、种类相关关系的性质(-)相关关系的概念和特点1、概念相关关系是现象间客观存在的,但其数值是不严格、不完全确定的相互依存关系。如年龄与人的生命力之间,消费品需求结构与居民收入水平之间,家庭收入和消费支出之间,施肥量与稻谷收获量之间,广告费支出与商品销售额之间等等,都存在着一定的关系。现象间可测定关系一•般分为两种:一种为函数关系,另一种为相关关系。相关关系指现象之间客观存在但乂不具有确定性的依存关系。2、特点:第一、现象之间确实存在数量上的相互依存关系。现象之间数量上的相互依存关系表现在:一个现象发生数量上的变化,另一个与之相联系的现象也会相应地发生数量上的变化。 例如:商品流通费用增加,一般地讲,商品销售额也会随Z而增加。反过來,如果商品销售额增加,一般情况下商品流通费用也会相应地增加;再如:身材较高的人,一般体重也较重,反过来体重较重的人,一般来说身材也较高。在表现现象相互依存关系的两个变量Z中作为根据的变量叫做口变量,随门变量变化发生对应变化的变量叫做因变量。例如可以把身高作为自变量,则体重就是因变量,也可以把体重作为自变量,此时,身高就是因变量。第二、现象Z间数量上不确定、不严格的依存关系。相关关系的全称为统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如身高为1.7米的人其体重有许多个值;体重为60公斤的人,其身高也有许多个值。再如,产品单位成本和劳动生产率的水平变动之间存在着一定的依存关系,但是除了劳动生产率的水平变动以外,它还会受到原材料消耗,固定资产折旧,能源耗用以及管理费用等诸因素变动的影响。故身高与体重Z间,产品单位成本和劳动生产率的水平变动之间,均没有完全严格确定的数量关系存在。(-)相关关系与函数关系的区别和联系1、区别函数关系是变量之间的一种严格、完全确定性的关系,即一个变量的数值完全有另一个(或一组)变量的数值所决定、控制。函数关系通常可以用数学公式确切地表示出来。例如圆周长L和圆半径r之间存在函数关系,其关系式为是个常数,圆的半径]值发生变化,圆周长就有一个确定的值与之相对应。又如,商品销售额二商品销售量x商品单价。在商品价格不变的条件下,商品销售发生变化,就有一个确定的商品销售额与Z相对应。但相关关系一般不是完全确定的。它们既存在着密切的关系,但又不能由一个或几个变量的数值精确地求出另一个变量的值(这个变量实际上就是随机变量)。因此,相关关系难以像函数关系那样,用数学公式去准确表达。造成这种情况的原因是:影响一个变量的因素是很多的。其中有些|大|素是属于人们一时述没有认识和掌握的,也有一些因素是已经认识,但暂时述无法控制和测量。另外,有些因素虽然可以控制和测量,但在测量这些变量的数值时,或多或少地都会有误差。所有这些偶然因素的综合作用造成了变量之间的不确定性关系,所以,和关关系与函数关系是有区别的。2、联系相关关系与函数关系也是有联系的。曲于客观上常会岀现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。当人们对某些现象内部规律冇较深刻认识时,相关关系可能变为函数关系。为此,在研究相关关系时,又常常使用函数关系作为工具,用一定的函数关系表现相关关系的数量联系。二、相关关系的种类 (-)根据相关关系的程度划分,可分为不相关、完全相关和不完全相关1、不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量X变动时,因变量y的数值不随之相应变动。例如,产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此吋变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。3、不完全和关。如果变量间的关系介于不和关和完全和关Z间,则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。犬多数相关关系属于不完全相关,是统计研究的主要对象(-)根据相关关系的方向划分,可分为正相关和负相关1、正相关。指两个因索(或变量)之间的变化方向一致,都是呈增长或下降的趋势。即口变量x的值增加(或减少),因变量y的值也和应地增加(或减少),这样的关系就是正相关。例如,工业总产值增加,企业税利总额也随Z增加;家庭消费支出随收入增加而增加等。2、负相关。指两个因素或变量Z间变化方向相反,即口变量的数值增大(或减小),因变量随Z减小(或增大)。如劳动生产率捉高,产品成本降低;产品成本降低,企业利润增加等。(三)根据自变量的多少划分,可分为单相关和复相关1、单相关。两个因索之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。2、复相关。三个或三个以上因索的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。例如,只研究工业总产值的变动对税利总额的影响,就是单和关;若研究产品产值、产品成木、劳动生产率等诸因素对税利总额的影响,就是复相关。再如,只研究生产设备能力这一个因索对劳动生产率的影响就是单相关;若同时研究生产设备能力、工人技术水平两个I大I素对劳动生产率的影响,就是复相关。单相关是复相关的基础。再存在多个自变量因素时,可抓住最主要的因素研究其相关关系,把多变量的复相关化成单相关來研究和测定。(四)根据变量间相互关系的表现形式划分,直线相关(或线性相关)和曲线(或非线性)相关1、直线相关(或线性相关)。当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。例如,销售量与销售额Z间就呈直线相关关系。 2、曲线(或非线性)相关。在两个相关现象中,口变量x值发生变动,因变量y也随Z发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。例如,从人的生命全过程看,年龄与医疗费支出呈非线性相关。三、相关分析和回归分析的任务对现象Z间数量关系的研究,统计上是从两个方面进行的:一方面是分析现象Z间数量变化的密切程度,这就是相关分析;另一方而是找出现彖Z间数量变化的规律,这就是冋归分析。(一)相关分析的主要内容1、揭示现象之间是否存在相关关系。2、确定相关关系的表现形式。3、确定现象变量间相关关系的密切程度和方向。(二)回归分析的主要内容1、建立相关关系的回归方程。利用回归方法,配合一个表明变量之间数量上的方程式,而且根据自变量x的变动,来预测因变量y的变动。2、测定因变量的估计值与估计值的误差程度。通过计算估计标准误差指标,可以反映因变量佔计值的准确程度,从而将误差控制在一定范围内。第二节相关系数一、相关关系的判断在进行相关分析之前,首先要对社会现象之间是否存在一定的依存关系,以及存在什么样的依存关系做出判断。判断的方法主要有:(-)定性判断法(-)相关图表法在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表;把相关表上一一对应的具体数值在直角坐标系小用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形彖地表现变量Z间的相互关系。二、相关系数(-)相关系数的概念相关图可以帮助我们直观了解相关关系,但这只是初步的判断,是相关分析的开始。为了说明现象之间相关关系的密切程度,就要计算相关系数。相关系数是直线相关条件下说明两个现象之间相关关系密切程度的统计分析指标。 (-)相关系数的测定与应用计算相关系数使用相关表的材料,我们先说明根据简单相关表计算相关系数的方法。首先让算三个指标。1、自变量数列的标准差6代表自变量数列的标准差X代表自变量及其产量值坷、勺……_尢壬X代表自变量数列的平均值«畀代农自变量数列的项数2、因变量数列的标准差5代表因变量数列的标准差)'代表因变量及其变量值X、力..........儿-Sv_y=------)'代表因变量数列的平均值〃畀代表因变量数列的项数,它和自变量数列的项数相等3、两个数列的协方差代表两个数列的协方差X-:代表自变量数列各变量值与平均值的离差)‘一亍代表因变量数列齐变量值与平均值的离差根据上述三个指标就可以计算相关系数,通常用r代表相关系数。它直接來源于数理统计中关于相关系数的定义。 丄该公式的分子和分母都有匚,所以上述公式可以简化为:一工5J'(9.1)我们用前边举过的表(10—1)为例,来说明相关系数的计算过程。[例3]根据表9—1,可进一步计算的表9—3o工_181=0.9798将表9一3的计算结果代入(9.1)式,得:这表明:该企业工人的工龄长短与其日产量大小Z间存在着高度止和关关系。表9-3相关系数计算表(%工龄产量(件6-亍)-%)(x-x).(y-J)(x-x)2(y-才工人(年)/日)y=68序号x=71455-3-133991692558-2-102041003560-2-8164644660-1-881645662-1-6613667660-2004776901001887416613698741661361097821020410011980212244144121080312369144合8481618138898此外,由(9.1)式还可以推导出计算相关系数的简化式: ,=________〃工厂-工迟『_________=环—匚・$,「皿>2_足/卮八足y)厂%,............式屮:n为变量次数由表9—1也可以计算的表9—4o表9-4相关系数简化计算表工人序号工龄X产量yx1234y214551630252202558253364290356025360030046603636003605662363844372676649435646277694947614838874645476592987464547659210978816084702119808164007201210801006400800合计56386589381816622将表9—4中数字代入(9.2)式,得:n工xy-工兀工y12x5893-84x816V12X626-842712X56386-8162=0.9798这与(9.1)式的计算结果完全相同。(三)相关关系的分析相关系数的性质如下:2关系数的取值范围在T和+1Z间,即:-lWrW1.3算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。4关系数r的数值越接近于1(-1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r二1或-1,则表示两个现象完全直 线性和关。如果7二0,则表示两个现象完全不和关(不是直线和关)。4、断两变量线性相关密切程度的具体标准为:rl<03,称为微弱相关、°•均称为低度相关、°・5"|<0・8,称为显著相关、°・8勻”<1,称为高度相关第三节回归分析一简单直线回归一、回归分析与相关分析的区别和联系(-)回归分析的概念相关关系能说明现象间冇无关系,但它不能说明一个现彖发生一定量的变化时,另一个变量将会发生多大量的变化。也就是说,它不能说明两个变量之间的一般数量关系值。回归分析,是指在相关分析的基础上,把变量Z间的具体变动关系模型化,求岀关系方程式,就是找出一个能够反映变量间变化关系的函数关系式,并据此进行估计和推算。通过冋归分析,可以将相关变量之间不确定、不规则的数量关系一般化、规范化。从而可以根据口变量的某一个给定值推断出因变量的可能值(或估计值)。回归分析包括多种类型,根据所涉及变量的多少不同,可分为简单冋归和多元回归。简单回归乂称一元回归,是指两个变量Z间的冋归。其中一个变量是口变量,另一个变量是因变量。根据变量变化的表现形式不同,回归分析也可分为直线回归和曲线回归。对具有直线相关关系的现象配之以直线方程进行冋归分析,即直线冋归;对具有曲线相关关系的现象配之以曲线方程进行回归分析,则称为曲线冋归。本章仅介绍简单直线回归,即一元直线回归。(二)回归分析与相关分析的区别与联系1、回归分析与相关分析的区别(1)相关分析所研究的两个变量是对等关系。回归分析所研究的两个变量不是对等关系,必须根据研究目的,先确定其中一个是口变量,另一个是因变量。(2)对两个变量x和y來说,相关分析只能计算出一个相关系数,计算中改变x和y的地位不影响相关系数的数值;回归分析则不同,有时可以根据研究目的不同分别建立两个不同的回归方程。即以x为自变量,y为因变量,则可以得出y倚x的回归方程;若以y为自变量,x为因变量,则可以得岀x倚y的回归方程。(3)相关分析对资料的要求是:两个变量都必须是随机变量。回归分析对资料的要求是,自变量是可以控制的变量(给定的变量),而因变量是随机变量。(4)相关分析只研究变量间是否存在关系以及关系的密切程度。冋归分析 研究的是变量间存在的是什么关系,比相关关系分析更进一步。2、回归分析与相关分析的联系(1)相关分析是冋归分析的基础和前提。如果缺少相关分析,没有从定性上分析说明现象间是否具有相关关系,没有对相关关系的密切程度作出判断,那么就不能进行回归分析。即便勉强进行了回归分析,也是没有实际意义的。(2)冋归分析是相关分析的深入和继续。仅仅说明现彖间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行回归预测,这样相关分析才冇实际的意义。因此,如果仅冇回归分析而缺少相关分析,将会因为缺乏必要的基础和前提而影响回归分析的可靠性。如杲仅有相关分析而缺少冋归分析,就会降低相关分析的意义。只有把两者结合起來,才能达到统计分析的目的。二、简单直线回归方程的确定(-)直线回归方程简单直线回归方程乂称一元线性回归方程。它是根据成对的两种变量的数据,寻找一直线方程代替两变量的变化趋势,根据口变量的变动,來推算因变量发展趋势和水平的方法。它是研究相互关联的两种经济现彖数量变动依存关系的一种方法。(-)配合直线方程的前提条件任何一个数学方程的运用都是有条件的,直线回归方程也不例外。为使配合的直线方程最佳,应当遵循下列条件:1、两个变量Z间确实存在显著的相关关系2、两种变量之间确实存在着直线相关关系(三)确定直线回归方程1、基本原理当两变量x、y之间存在一直线相关关系时,可以用直线方程儿=°+加近似代替x与y的关系。方程中的参数a是回归直线的起点值,表现为当兀=0时回归直线的y坐标,即y轴上的一个点,数学上叫截距。参数b是回归直线的斜率,即冋归系数。它代表自变量x每增加一个单位时,因变量y的平均增加值。a和b数值确定了,直线冋归方程也就确定了。确定a、b的数值可用最小平方法,原理如下。要使所选直线能够真正反映x、y的变化趋势,必须满足以下条件:(1)根据方程儿二a+bx,求出理论儿值与实际y值的离差平方和为最小;(2)实际y值与理论值儿的离差总和为零。即满足:工()一儿)二0① 工(y-儿)1最小值②显然满足②就必然能够满足①的条件。因此要求:Q=》(y-a-bx)2=最小值2、参数a、b的确定8Q8Q_2工(y-a-bx)=0da利用数学求极值的方法,可以:当%二0时,①有极小值。_2工(y-a-bx)=0Vy=na+b工x^xy=a^x+h^x2整理得:(9.3)a=y-hx解得:(9.4)式中:)'、匚分别为变量y和X实测平均值。将表(9—4)的相应数据代入(9.4)式,得:12x5893-84x816=4.76312x626-842a=y-bx=68-4.763x7=34.659=a+bx将所得a.b的值代入儿,即得冋归直线方程:儿=34.659+4.763%这表明:工龄愈长,则口产量愈高。二者之间的具体变动关系为:工龄每增加一年,H产量平均增加4.763件。3、回归方程的作用根据回归方程可以推算出已知值的佔计值,以便估计误丼。例如利用冋归方程推求,工龄为8年时,其日产量为34.659+4.763x8=72.763(件),即约为73件。不仅可以推出已知的估计值。而且可以利用回归方程预测未知的值,如当工龄为3年时,其H产量估计值约为50件。三、回归误差及计算 (-)回归误差的概念估计标准误差就是用來说明回归方程推算结果准确程度的统计分析指标,或者说是反映回归直线回归误差大小的统计分析指标。(二)估计标准误差的计算四、估计标准误差的作用在相关分析中,估计标准误羌是结合回归直线使用的一个指标。它有三个作用:(-)说明以回归直线为中心的所有相关点的离散程度。估计标准误差数值大,则说明平均误差大,相关点与回归直线的离散程度大;反Z则说明离散程度小。这个数值的大小,反映了利用回归直线进行估计或预测的准确程度。(二)说明回归直线的代表性大小。这是从另一个角度來说明它的作用。估计标准谋差大,则回归直线的代表性小,它的实用价值也小;估计标准谋差小,则回归直线的代表性大,它的实用价值也大。从上述作用來看,估计标准误差和相关系数一样,也具有说明相关关系密切程度的作用。不同的是相关关系数越大越好,估计标准谋差越小越好。相关系数用相对数表现,密切程度的概念比较明确;估计标准课弟用绝对数表现,关系密切的程度表示的不那么明显,它也不能说明是正相关述是负相关。(三)估计标准误差的第三个作用是在抽样调查条件下,是计算回归抽样误差的一个根据。就像总体方差是计算平均指标抽样误羞的根据一样,计算回归抽样误差时应该使用总体的估计标准误差。但这个材料常常是没冇的,要用样本的估计标准误差来代替。五、回归误差与相关系数的关系回归误差与相关系数,都具冇说明现象之间的相关关系密切程度的作用,但两者有所区别。相关关系与说明的现象Z间的密切程度成止比关系,而回归误差概念比较明确,凹归误差用绝对数表示,它所说明的密切程度并不那么明显,也不能说明是正相关述是负相关。两指标在数量上存在着如下的联系:r代表相关系数2乞代表因变量数列的方差代表回归误差的平方现以10—3资料说明如下: 已知:=0.9758则:穴=1.892=3.572计算结果与前面相同。这也是相关系数的一种计算方法。但这种方法一般不使(74.833-3.5五用,因为它要求先配合回归直线,解除直线回归方程,计算回归误差,然后才能进V74.833行相关系数的计算。从认识的一般程度來讲,首先要知道现象Z间相互关系是否密切。如果冋归直线价值不大,就不必进行下一步的计算了。所以,只有证明了相关关系比较密切,回归直线有实用价值,方去配合冋归直线,用它来估计和预测。实际工作屮常常根据相关系数r去推算回归误差5。2)S2S;=er;(1-ry=ay71-r仍以上例说明:crv=V74.833=8.651已知:r=0.9758贝g.S22y=crvVl-r=8.651Vl-0.9758=1.89(件)相关系数和估计标准差在数值的犬小上表现为相反的关系。(-)r值越大,亠越小。r值越大,说明相关程度越密切,这是为越小,也就是相关点距离回归直线比较近。当r值大到r=±]时,即完全相关时,则S2y=ay^r=ay71^1=0,即估计标准误差等于°。从相关图上看,就是说所有的相关点全在回归直线儿上,这也就是完全相关。(二)r值越小,则'值越大。r值越小,说明相关程度不密切,这吋值越大。从相关图上看,也就是相关点距离回归直线比较远。当r二0时,即不相关吋,则估计标准差Sy=ay^=ayf即估计标准差等于y数列标准差,这说明相关点与冋归直线的距离和相关点与y数列的平均线的距离一样,也就是冋归直线和y数列的平均线是同一条直线。在这种情况下,相关点的x值不管怎样变化,儿的值始终不变,永远等于y数列的 平均值,这当然就是不相关了。所以相关系数和佔计标准误差可以从不同角度说明相关关系密切与否。由丁•相关关系程度比较明确,而且能直接辨别出是正相关或是负相关,所以一般情况下相关系数用的多。六、相关分析应注意的问题(-)应建立在现象之间确实存在相关关系的基础上(-)回归方程、相关系数和回归误差应结合使用(三)要注意现象质的界限及相关关系作用的范围例如:施肥量和农作物生产量只在一定范围内才具有正相关关系。施肥量超过一定限度,产量不但不会增加,反而会减少。密植也是如此,密植过了头也会减少产量。其他许多现彖也是如此。因此用相关分析和回归方程分析方法进行推算和预测时要注意它的作用范围。(四)要具体问题具体分析(五)要考虑社会现象之间的复杂性
此文档下载收益归作者所有
举报原因
联系方式
详细说明
内容无法转码请点击此处