欢迎来到天天文库
浏览记录
ID:36317055
大小:595.00 KB
页数:51页
时间:2019-05-09
《stata中变量描述分析和作》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第三讲描述性分析与画图进行描述性统计分析的目的:对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。本章主要内容6.1.频数分布6.2.条件频数分布6.3.频数分布的常见错误分析及解决方法6.4.变量的中央趋势和离散趋势6.5.描述数值型数据统计量的其它方法6.6.画图数据描述的方法获得数据的目的是为了描述和分析数据,回答研究问题数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上,才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织、归纳、总结样本的基本特征。
2、常见的方法包括频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析(univariateanalysis)。考察变量的属性分布二元或多元交叉表、二元相关关系分析图形描述性分析的菜单窗口该内容是statistics菜单下的首个选项:Statistics–Summaries,tables&tests6.1.频数分布频数、比例(proportion)、百分比(percentage)和比率(ratio)等描述性统计方法适用于所有类型数据,包括定性、定序、定距和定比数据。频数与频数分布频数也称次数,即分布在各个类别中的数据个数频数分布就是对样本中变量的不同属性出现次数的
3、描述假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是女生和男生的分布情况2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例菜单窗口在Stata的窗口菜单下,有多种描述数据频数分布特征的选项,每一选项都具有一定独特的功能,但有些功能是相通的单变量频数分布.tab[变量名]①②①:.tab也可写为tabulation,是获得频数分布的基本命令②:需要输出频数分布的变量名称该命令不对频数分布作任何定义,只提供单个变量的频数分布.tabgirl该命令告诉Stata,给变量girl生成一张频数分布表girlin
4、2004,0=b
5、oy
6、---1=girl
7、Freq.PercentCum.------------+-----------------------------------0
8、1,24853.7053.701
9、1,07646.30100.00------------+-----------------------------------Total
10、2,324100.00输出结果显示,该数据一共有2324个观察值变量girl有两个取值:0代表男孩,1代表女孩样本中有1248个男孩,占53.7%;女孩为1075,占46.3%多变量频数分布.tab1[变量a变量b变量c]①②①:同时获得多个变量频数分布的基本
11、命令②:需要输出频数分布的变量名称与tab或tabulate不同的是,.tab1可接多个变量.tabgirlurban该命令告诉Stata,给变量girl和urban各自生成一张频数分布表6.2.条件频数分布条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种.基本命令.tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate若其令后面仅有一个变量,则Stata输出该变量的频数分布若多于两个变量,则会出现错误提示Stata的默认方法是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量.tab2也提
12、供双变量的交叉分析表.tab和tab2的主要区别在于,前者仅可以用于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表例1.tabgirlenroll,chi2columnrowmissnokey①②③④⑤①:提供两个变量关系的卡方②:提供列变量的百分比③:提供行变量的百分比④:提供缺失变量的比例⑤:压缩单元格内容的提示6.3.频数分布的常见错误之一toomanyvariablesspecified导致I类错误的原因在于,混淆了tab,tab1,tab2的用法.tab可用于生成单个变量的频数分布,其后只能接一个变量;.tab也可用来描
13、述两个变量的交叉分布,其后面只能接两个变量tab1后面可以接多个变量,但只能分别生成单个变量的频数分布,而不能生成交叉表tab2则可以生成多个双变量的交叉表因此,若使用下列命令,则会遇到这类错误.taburbanyrschenrolltoomanyvariablesspecifiedr(103);6.3.频数分布的常见错误之二toomanyvalues导致这类错误的原因在于,在试图生成两个变量的交叉表时,每个变量都包含太多的取值。比如:.tab
此文档下载收益归作者所有