在STATA使用statsby命令做分组回归

在STATA使用statsby命令做分组回归

ID:39122999

大小:51.50 KB

页数:3页

时间:2019-06-25

在STATA使用statsby命令做分组回归_第1页
在STATA使用statsby命令做分组回归_第2页
在STATA使用statsby命令做分组回归_第3页
资源描述:

《在STATA使用statsby命令做分组回归》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、在STATA使用statsby命令做分组回归赵岩徐畅(吉林大学商学院会计系)在实际的回归分析中,经常需要做多分组的回归,譬如:分别按年度、行业进行回归。如果仅仅使用regress命令,那么必然造成进行重复多次的繁重劳动。当然,一种办法就是通过编程来实现,不过这需要拥有较好的编程能力,绝大多数初学者甚至是资深人士都不愿选择的。其实STATA中已经提供了相应的命令完成这个貌似繁重的工作,即statsby,这个可以专门用来处理分组数据的命令。一、statsby的命令格式及说明statsby命令格式为:statsby[exp_list][,options]:command其具体内容,请参见STATA的

2、help文件,即:helpstatsby在分组回归中,statsby最重要的是如下三个部分:(1)[,options],应使用分组变量,如:“,by(yearindustry)”;(2)command,应选用相应的回归命令,如果是OLS,那么就为“regressyx1x2”;(3)[exp_list],要统计的相应参数,如:系数拟合值、拟和优度、自由度等,可参见对应command的help文件。综合起来,命令可以写为:use“d:statsbydata.dta”,clearsortyearindustyStatsby_b_see(r2)e(r2_a)e(df_m)e(df_r)e(F)e(N

3、),by(yearindustry)saving(d:statsbyresults.dta,replace):regressyx1x2其中:d:statsbydata.dta为举例使用数据库,包括变量为:y、x1、x2、year和industry,其中year和industry是用来做分组回归的分组标识变量;sort是排序命令,建议养成好习惯对分组变量排序,为了后续研究做准备。_b为各变量的回归系数;_se为各变量的标准误;e(r2)为回归方程的拟和优度r2;e(r2_a)为回归方程的调整后r2;e(df_m)为回归方程的模型自由度,一般的统计、计量的书籍都记为(K-1);e(df_r)为

4、回归方程的剩余自由度,一般的统计、计量的书籍都记为(n-K);e(F)为回归方程的F值;e(N)为进入回归方程的有效样本数N,一般的统计、计量的书籍都记为n,也即前述提及的n;by(yearindustry),使用变量year和industry作为分组变量,进行分组统计;saving(d:statsbyresults.dta,replace),将结果保存,也可以保存在临时表里;regressyx1x2,进行回归,这部分可以参看regress命令自身格式进行扩充。此命令结束后,将在D盘下产生一个名字为statsbyresults.dta3的文件,上述统计量都将在此文件中。这里需要说明的是_b和

5、_se是系统生成的向量,因此不能随便赋给变量,而e()则是标量,可以赋值给一个变量,譬如在命令中可以写:“R_square=e(r2)”,这样在statsbyresults.dta就会出现一个R_square,替代原有的系统默认生成的变量。即使是系统生成的变量,也不用担心,因为变量的label可以区分具体的变量意义。二、使用statsby命令后计算各回归方程中各回归系数的t值和p值这里又发现了新的问题,首先在regress命令结果中的e()函数中,没有t值和对应的p值,这对于想验证相应分组模型对应的系数是否显著或是模型是否显著就很麻烦,因此,这里只能通过t值的计算公式和STATA提供的t检验的

6、p值函数。具体步骤如下:首先切换到结果表,save“d:statsbydata.dta”,replaceuse“d:statsbyresults.dta”,clear其中,save命令使用要十分小心,会把原有的数据库内容改变,因此存在大量的STATA的使用讲解中都提及到如何避免这个问题的处理,请自行参考。本文为了说明方便,简化处理。回归系数的t值公式为:其中:是第个回归系数,可以在结果表中找到相应变量,以“_b_”开头的、以对应回归变量名为结尾的,如:“_b_x1”为x1的回归系数、“_b_cons”为截距项回归系数;为其标准误,可以在结果表中找到相应变量,以“_se_”为开头的、以对应回

7、归变量名为结尾的,如:“_se_x1”为x1的回归系数的标准误、“_se_cons”为截距项回归系数的标准误;为回归方程剩余自由度,即e(df_r),如果没有赋给变量,那么系统自动生成一个变量,其label会标注“e(df_r)”,此处回归的系统变量为_eq2_stat_4。因此,计算x1回归系数的t值和p值可以用如下的命令:genx1_t=_b_x1/_se_x1genx1_p=ttail(_e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。