sas描述性统计分析.ppt

sas描述性统计分析.ppt

ID:48058557

大小:864.31 KB

页数:45页

时间:2019-05-06

sas描述性统计分析.ppt_第1页
sas描述性统计分析.ppt_第2页
sas描述性统计分析.ppt_第3页
sas描述性统计分析.ppt_第4页
sas描述性统计分析.ppt_第5页
资源描述:

《sas描述性统计分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、描述性统计分析EastChinaJiaoTongUniversity数据的描述如同给人画像一样在对数据进行深入加工之前,总应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。如何用图来表示数据?定量变量的图表示:直方图对于一个定量变量,比如某个地区测量了163个高三男生的身高。用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。定量变量的图表示:盒型图简单一些的是盒形图(boxplot,又称箱

2、图、箱线图、盒子图)。右图是根据地区1高三男生的身高数据所绘的盒形图;盒型图盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点)。定量变量的图表示:茎叶图在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leafplots)可以恢复数据以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。茎叶图其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字0012233

3、44代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。定量变量的图表示:散点图数据会有两个变量,如美国男士和女士初婚年限数据。该数据描述了自1900年到1998年男女第一次婚姻延续的时间。这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。散点图定性变量的图表示:饼图定性变量(或属性变量,分类变量)不能点出直方图、

4、散点图或茎叶图,但可以描绘出它们各类的比例。饼图定性变量的图表示:条形图从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。条形图如何用少量数字来概括数据?大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化我们可以用“平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。如何用少量数字来概括数据?可用少量所谓汇总统计量或概括统计量(summarystatistic)来描述定量变量的数

5、据。这些数字是从样本数据得来的,因而也是样本的函数,任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。样本的随机性决定统计量的随机性(统计量也是随机变量)如何用少量数字来概括数据?概括统计量经常对应于总体的无法观测到的某些参数。这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。如何用少量数字来概括数据?注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。数据的“位置”数据有位置吗?

6、这里三个数据的位置一样吗?数据的“位置”“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或centertendency)。和这种“位置”有关的统计量就称为位置统计量(locationstatistic)。位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k%分位数)。数据的“位置”最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(samplemean),以区别于总体均值。如果记样本中的观测值为x1,…,xn,则样本均值定义为(样本)中位数(median)是

7、数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。数据的“位置”上下四分位数(或分别称为第一四分位数和第三四分位数,firstquantile,thirdquantile)则分别位于(按大小排列的)数据的上下四分之一的地方。数据的“位置”数据的“位置”一般地还称上四分位数为75百分位数(75pecentile,有75%的观测值小于它),下四分位数为25百分位数(有25%的观测值小于它)。一般地,k百分位数(k-pecentile)意味着有k%

8、的观测值小于它。如果令a=k%,则k百分位数也称为a

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。