欢迎来到天天文库
浏览记录
ID:21883942
大小:858.50 KB
页数:47页
时间:2018-10-20
《Stata的数据处理.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章Stata中的数据处理主要内容:1.数据的类型、压缩与转化2.数据的导入3.数据的整理2.1数据的类型、压缩与转化2.1.1打开本地或网络数据文件Stata一般识别的数据文件的后缀名为.dta,打开这些数据文件的命令为use命令,首先讲解一下use命令的基本语句,具体格式如下:use[varlist][if][in]usingfilename[,clearnolabel]这个命令中,use是打开数据的命令语句,varlist代表变量名称,if是条件语句,in是范围语句,usingfilename代表数
2、据文件路径。下面将详细介绍常用的五种情形,所使用到的数据文件名称为usaauto.dta,是根据统计资料得到的美国汽车产业的横截面数据(1978年),完整的数据在本书附带光盘的data文件夹的“usaauto.dta”工作文件中。2.1数据的类型、压缩与转化(1)打开数据文件中的全部数据如果想要打开usaauto数据文件中的全部数据,输入的标准命令如下:use“C:datausaauto.dta”use是代表打开的命令语句,引号中“C:datausaauto.dta”则给出了数据文件的路径,说明数据
3、文件是C盘中data文件夹下的usaauto.dta数据文件。(2)打开数据文件中的部分变量有时,并不需要将数据文件中的所有变量全部打开,因为原始数据内容丰富,含有很多变量,而研究可能只涉及其中的几个变量。所以若只打开usaauto文件中的make和price这两个变量,应该使用如下命令:usemakepriceusing“C:datausaauto.dta”这个命令中usemakeprice部分表示需要打开make和price两个变量,using“C:datausaauto.dta”部分表示打开的
4、数据文件路径及名称,如果用户使用此命令打开其他数据文件,所应用的命令相似,只需要把表示文件名称和变量的具体内容修改即可。2.1数据的类型、压缩与转化(3)打开数据文件中的部分样本有时,原始数据文件的样本数量过于庞大,例如人口普查的数据动辄千百万,可是一般的研究大部分不需要全部的样本,只需要部分样本即可,所以这时候只需要打开部分样本。例如,只需要打开usaauto数据文件中第五到第十个样本的数据,可以使用如下命令:use“C:datausaauto.dta”in510其中use“C:datausaa
5、uto.dta”部分表示打开的数据文件名称及路径,in510部分表示选取的样本序号,即选取第5到第10个样本。如果用户使用此命令打开其他数据文件,所应用的命令相似,只需要把表示文件名称和样本序号的具体内容修改即可。2.1数据的类型、压缩与转化(4)打开数据文件中具有某些特征的样本有时,原始数据将不同特征的样本混杂在一起,而现实的研究却要求将不同的样本分开研究,例如分别研究男性、女性的情况,城市、农村的经济问题,等等。这时就需要只打开具有这些特征的样本数据进行分析,在这个试验中,打开usaauto文件中进口
6、车样本数据的命令为:use“C:datausaauto.dta”ifforeign==1这个命令语句中最重要的就是if语句,该命令执行的结果就是让stata仅仅读入符合条件的样本数据。在本例中,foreign==1就表示是进口车,所以打开的数据就是进口车的数据。(5)打开网络数据如果想使用Stata官方网站或其他网站所提供的数据,而这些数据又没有直接下载到本地电脑上,Stata也有专门的命令供用户使用,以便打开这种途径得到的数据。例如nlswork是Stata官方网站提供的有关美国年轻女性年龄工资等的数
7、据,要想通过网络打开,可以运行如下命令:usehttp:\www.stata-press.comdatar9lswork2.1数据的类型、压缩与转化2.1.2Stata常用数据类型与压缩Stata常用的数据类型主要有三类:即数值型、字符型和日期型,下面将会逐一进行介绍。(1)数值型变量,主要是由数字、正负号、小数点来组成的数据,按其精度和存储大小不同,又可以分为五类,具体内容见表2.2。其中double是所有变量当中所需存储空间最大的一个,与此相应的其精度也最高,所以当用户在使用的时候,应根据变量
8、的特征来设置变量的类型。在Stata中默认的数值型变量类型为float型的。2.1数据的类型、压缩与转化(2)字符型变量,主要是用来说明样本的一些特征信息的变量,可以由字母、特殊符号和数字组成,但是这里的数字已经退化成了一种符号,不再具有数值特征。字符型数据一般会被保存为str#格式,str后面的数字代表最大的字符长度,如str6表示可容纳最大长度为6个字母的字符型变量。字符型变量一般用英文状态下的引号””进行标
此文档下载收益归作者所有