第七章 虚拟变量

第七章 虚拟变量

ID:20716784

大小:731.00 KB

页数:30页

时间:2018-10-15

第七章 虚拟变量_第1页
第七章 虚拟变量_第2页
第七章 虚拟变量_第3页
第七章 虚拟变量_第4页
第七章 虚拟变量_第5页
资源描述:

《第七章 虚拟变量》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章虚拟变量回归第一节虚拟变量的性质一、基本概念由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummyvariable)。虚拟变量也称:哑元变量、定性变量等等。通常用字母D或DUM加以表示(英文中虚拟或者哑元Dummy的缩写)。用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。例1:你在研究学历和

2、收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。二、虚拟变量设置规则虚拟变量的设置规则涉及三个方面:1.“0”和“1”

3、选取原则虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。“0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。2.属性(状态、水平)因素与设置虚拟变量数量的关系定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,

4、所有制,收入的分组等。虚拟变量数量的设置规则1.若定性因素具有m(m≥2)个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m个虚拟变量;2.当回归模型无截距项时,则可引入m个虚拟变量;否则,就会陷入“虚拟变量陷阱”。例(虚拟变量陷阱)研究居民住房消费支出和居民可支配收入xi之间的数量关系。回归模型的设定为:现在要考虑城镇居民和农村居民之间的差异,如何办?为了对“城镇居民”、“农村居民”进行区分,分析各自在住房消费支出上的差异,设为城镇;为农村。,则模型为(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态(m=2),故只设

5、定一个虚拟变量。)若对两个相互排斥的“居民属性”,引入m=2个虚拟变量,则有则模型(1)为则对任一家庭都有:D1+D2=1即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变量陷阱”的实质是:完全多重共线性。第二节虚拟解释变量的回归在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:实质:加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。一、加法类型(1)一个两种属性定性解释变量而无定量变量的情形例:按性别划分的教授薪金(2)包含一个定量变量,一个定性变量模型 设有模型,yt=0+1xt+2D+ut,其中yt

6、,xt为定量变量;D为定性变量。当D=0或1时,上述模型可表达为,0+1xt+ut,(D=0)yt=(0+2)+1xt+ut,(D=1)D=1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。注意:关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。但解释模型时一定注意1,0是怎样分配的。②定性变量中取值为0所对应的类别称作基础类别(basecategory)。(3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形(4)两个定性解

7、释变量(均为两种属性)和一个定量解释变量的情形例:研究大学教师的年薪是否受到性别、学历的影响。性别和学历是两个不同的标准。按性别标准教师可以分成男、女两类,应该引入一个虚拟变量;按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历三类,应该引入两个虚拟变量,共引入三个虚拟变量。令Y代表年薪,X代表教龄,建立模型:可以看出基准类是本科女教师,B0为刚参加工作的本科女教师的工资;B1为参加工作时间对工资的影响;B2是性别差异系数;B3和B4为学历差异系数,B3是硕士学历与本科学历的收入差异,B4是博士学历与本科学历的收入差异;通过上述分析,

8、我们可以确定Bi的符号。在这个问题中,一共有六个类别,但是我们只引入了三个虚拟变量,而不是五个。在就多个标准引入虚拟变量时,应该注意每一标准下引入虚拟变量个数应该是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。