欢迎来到天天文库
浏览记录
ID:48058996
大小:441.81 KB
页数:29页
时间:2019-05-06
《stata中变量的生成与处理.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第四章变量的生成与处理导论Stata对数据的处理是以变量为前提的若没有需要分析的变量,则Stata将一无用处熟悉变量的内容和分布、生成新变量、改变旧变量等是处理数据的第一步4.1.新变量的生成、规则及注意事项Stata的变量类型Stata软件生成三类变量:numeric(数值型)变量,string(字符型)变量(相当于定性变量)和date(日期)变量。虽然日期变量以数值型变量的技术记录、存储,但二者的用途却不同数值型变量包括定距和定比变量。可以是整数、小数、负数和正数。数值型变量可以有多种存储方式(StorageTypes)用st
2、r类型保存的定性等分类变量也可区分为多种形式,从str1-str244Stata的日期变量日期(date)变量是数值型变量的一个特例。它们通常以字符的形式输入(如:01JAN1992or01/01/92),但必须以数值型数据存储才能有用Stata有几个命令可以工作于日期和时间依赖(time-dependent)数据Stata将所有的日期保存为从1960年1月1日以来的天数或月份、季节等。此前的日期是负值,此后的是正值。SAS使用同样的日期方式,但其起始时间是1582年的10月14日。Excel使用1900年1月1日为默认起始日。如
3、果读入Excel数据,则以字符型变量输入日期,并重新格式日期生成变量的路径Data—Createorchangevariables生成变量的窗口Data—Createorchangevariables—Createnewvariable基本命令Stata有四个基本的生成和修改变量的命令:gen、egen、replace和recode.gen和egen分别是generate和extendedgenerate的缩写,它们用于生成新变量.replace和recode用来改变现存变量的属性或数值.replace需要与gen一起使用;二者的
4、区别在于,gen用于生成新变量,replace用于重新定义已经存在的变量.recode也可以与gen一起使用基本语法.gen[变量名]=[表达式1]①②③.replace[变量名]=[表达式2]if[条件]①②③④①:生成新变量或替代现存变量取值的基本命令②:新变量或其取值将被替换的变量的名称③:在gen命令的取值不同于在replace命令的取值④:替换原有变量的取值必须满足if指定的条件*yrofschoolingrecoded(这是一个注释;*代表注释)genedu=0replaceedu=1ifyrsch==11replac
5、eedu=2ifyrsch==12replaceedu=3ifyrsch==13replaceedu=4ifyrsch==14replaceedu=5ifyrsch==15replaceedu=6ifyrsch==16replaceedu=7ifyrsch==21replaceedu=8ifyrsch==22replaceedu=9ifyrsch==23replaceedu=10ifyrsch==24
6、yrsch==27replaceedu=11ifyrsch==25
7、yrsch==28replaceedu=12ifyrsch==
8、26
9、yrsch==29replaceedu=13ifyrsch==31replaceedu=14ifyrsch==32replaceedu=15ifyrsch==33replaceedu=16ifyrsch==34replaceedu=17ifyrsch==35replaceedu=18ifyrsch==36replaceedu=.ifyrsch==.
10、yrsch==-9tab1yrschedu*查看变量的生成是否成功变量生成的规则(I)生成新变量、重新定义旧变量时需遵循的一些基本规则:变量的名称可长达32个字符,必须以字母、汉
11、字或字符(@,_,#,$等)开头(不能使用空白字符或!、?等特殊字符)。变量最后一个字符不能是句号变量的名称必须唯一,不能有两个相同的变量名Stata区分大小写,对大写、小写敏感:Variable不能写成variable,反之亦然使用描述性的变量名字:“变量a”这个名称没有任何意义。调查问题是变量名称的很好选择变量生成的注意事项尽量避免使用同一变量名称。换言之,不要使用新变量取代旧变量。保持原始变量有助于检验我们的命令是否正确充分了解原始变量的分布以及每个数值代表的含义遵循不重不漏(exhaustiveandmutuallyexc
12、lusive)原则(详见“生成分组变量”一节)在变量生成后,将原始变量和新变量的取值进行对比,检查是否有误注意原始变量的缺失值4.2.利用系统变量或下划线变量(_n和_N)生成新变量Stata有几个下划线变量(_variables,读为“under
此文档下载收益归作者所有