资源描述:
《《自变量的选择》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、自变量的选择回归方程中的变量过多,会使资料的搜集、系统的运作及模型的解释都会遇到困难,如何将模型精简而又能有很好的解释能力是回归分析面对的重要问题。自变量的选择为分析自变量选择失当而出现的后果,我们首先举一例分析。例如,分析通货膨胀时,我们考虑失业率与预期通货膨胀率是影响通货膨胀的主要因素,若其正确的模型形式是二元线性回归模型,即:其中,Y表示通货膨胀率(%);X1表示失业率(%);X2表示预期通货膨胀率(%)。统计资料估计的回归模型,计算机输出结果如下自变量的选择(一)确定自变量的原则原则:准则:有
2、效性,独立性,边际贡献(二)确定自变量的步骤(三)自变量筛选的方法1.所有回归式的比较选取法(R2最大,MSE最小)2.分步回归法包括(1)向前选取法(2)向后选取法(3)逐步选取法(1)向前法是选取进入模型的解释变量越选越多,每一步都是选取剩余解释能力最强的一个变量进入模型,但其解释能力必须要通过事前定好的门槛(如显著性水平为0.05)。第一步,开始时模式中没有任何变量,接着第一步在所有变量中选取对Y最有解释能力的进入模型,其选取方式是找F值最大的。第二步,选取除了上面进入模型的X之外的剩余变量中偏
3、F最大,且通过门槛者。。。。如:(2)向后选取法与向前选取法相反,在一开始时是所有变量都放在模型中,然后再将解释能力差的变量一一去掉,直到所有放在模型中的变量其偏F值都大于预设的门槛。第一步,先计算所有偏F值,去掉最小且小于门槛值的变量。(3)逐步选取法是结合向前和向后选取法而成的。开始时一向前选取法进入一个变量,而后每当选入一个新变量后,就利用向后法试试看在模型中已存在的变量有无偏F值小于门槛的变量,若有,则将其排除之外,接着再进行向前选取,若无,则继续向前选取,这样向前向后选取法轮流使用,直到没有
4、变量可进来,也没有变量会被去除。自变量选择中最常见的问题-----------存在共线性时的处理方法——引起解释变量共线性的原因对多重共线性本质的认识,至少可从以下几方面理解:由变量之间的性质引起的。这时,不管数据以什么形式取得,数据取样是大是小,都会出现X2与X1高度相关数据问题引起的(多重共线数据点)指即使使总体诸解释变量没有线性关系,但在具体样本中仍可能有线性关系。情况一:当样本容量很小时。情况二:若建模所用的解释变量是时序变量——引起解释变量共线性的原因总量变量相关,增量之间、人均量之间无关。
5、——引起解释变量共线性的原因逐步分析估计检验法这种方法首先计算因变量对每个解释变量的回归方程,得到基本回归方程。再根据理论上、逻辑上的分析,参考其他先验信息以及统计检验的结果来分析这些基本回归方程,从中选出最合理的基本回归方程。然后在这个选定的基本回归方程中增加新的解释变量,并根据统计分析作如下分类判。(1)如果新加入的解释变量改进了R2,且每个系数又是统计上显著的,那么就认为这个新变量是有用的,应该保留。(2)如果新加入的解释变量未能改进R2,对其他系数值也没有影响,则认为新变量是多余的,应予以舍弃
6、。(3)如果新加入的解释变量不仅改变了R2的值,而且同时也显著地影响其他系数的符号或大小,以至于使某些系数达到不能接受的程度,那么,可以断言产生了严重的多重共线性。这个新的解释变量也可能是重要的,但由于它与其他解释变量之间存在线性相关关系,普通最小二乘法失效。需要特别注意的是,这时不能盲目略去这类变量,否则,可能造成扰动项与解释变量相关。1.从变量上思考引出的去除不重要解释变量的方法。去掉不重要的解释变量虽然可以削弱共线性,却容易导致模型设定误差,因此有时会出现两难选择:若共线性存在,不能有效地估计模
7、型中的参数,若去掉有关解释变量,又会错误地估计参数的真实数值。解决共线性的方法直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。解决共线性方法2.从模型形式上思考引出的变量转换法。变量转换的主要形式有如下
8、两种:(1)差分形式但这种变换也会出现新的问题:第一,即使上式中的随机扰动项不存在序列相关,差分后的随机扰动项也可能存在序列相关。第二,差分变换导致丢失一个观测值,在小样本情况下,就不能不考虑自由度损失问题,另外还需要注意,差分变换不适用于截面数据。解决共线性方法2.从模型形式上思考引出的变量转换法。变量转换的主要形式有如下两种:(2)解决共线性方法2.从模型形式上思考引出的变量转换法。变量转换的主要形式有如下两种:(2)变量比形式这种方法适用于截面数据