欢迎来到天天文库
浏览记录
ID:58821307
大小:260.29 KB
页数:16页
时间:2020-10-25
《SAS学习系列11.-对数据做简单的描述统计.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、11.对数据做简单的描述统计(一)使用procmeans描述数据用procmeans过程步,可以对数据做简单的描述统计,包括:非缺省值个数、均值、标准差、最大值、最小值等。基本语法:PROCMEANSdata=数据集<可选项>;VAR变量列表;CLASS分组变量;(加权平均的权数)(相应观测出现的频数)说明:(1)可选项“MAXDEC=n”用来指定输出结果的小数位数;(2)默认是对数据集的所有数值变量的非缺省值做描述统计,若想包含缺省值,加上可选项“MISSING”;(3
2、)VAR语句指定要做描述统计的变量;CLASS语句指定按分组变量对数据进行分组分别做描述统计;BY语句同CLASS语句(需要事先按BY变量排好序);(4)默认输出非缺省值个数、均值、标准差、最大值、最小值;也可以自己指定需要输出的描述统计量:MAX——最大值;MIN——最小值;MEAN——均值;MEDIAN——中位数;MODE——众数;N——非缺省值个数;NMISS——缺省值个数;RANGE——极差;STDDEV——标准差;SUM——累和;例1鲜花销售的数据(C:MyRawDataFlowers.dat),变量包括顾客I
3、D,销售日期,petunias,snapdragons,marigolds三种花的销量:读取数据,计算新变量销售月份month,并使用procsort按照月份排序,并使用procmeans的by语句来按照月份描述数据。代码:datasales;infile'c:MyRawDataFlowers.dat';inputCustID$@9SaleDateMMDDYY10.PetuniaSnapDragonMarigold;Month=MONTH(SaleDate);procsortdata=sales;byMonth;/*Ca
4、lculatemeansbyMonthforflowersales;*/procmeansdata=salesMAXDEC=0;byMonth;varPetuniaSnapDragonMarigold;title'SummaryofFlowerSalesbyMonth';run;运行结果:(二)使用统计量有时候需要将统计量存入新数据集,以便进一步做数据分析,或者与原数据集合并。一、将统计量存入新数据集可以用ODS(OutputDeliverySystem)系统或者OUTPUT语句,下面介绍用OUTPUT语句。语法:OUTPU
5、TOUT=数据集名统计量名(变量列表)=新列名;示例:PROCMEANSDATA=zooNOPRINT;VARLionsTigersBears;OUTPUTOUT=zoosumMEAN(LionsBears)=LionWeightBearWeight;RUN;例2仍然是例1的鲜花数据,读取数据,按照CustomerID排序,使用procmeans过程,将mean和sum值存入新数据集totals中。代码:datasales;infile'c:MyRawDataFlowers.dat';inputCustID$@9Sale
6、DateMMDDYY10.PetuniaSnapDragonMarigold;procsortdata=sales;byCustID;/*CalculatemeansbyCustomerID,outputsumandmeantonewdataset;*/procmeansNOPRINTdata=sales;byCustID;varPetuniaSnapDragonMarigold;outputout=totalsmean(PetuniaSnapDragonMarigold)=MeanPMeanSDMeanMsum(Petun
7、iaSnapDragonMarigold)=PetuniaSnapDragonMarigold;procprintdata=totals;title'SumofFlowerDataoverCustomerID';formatMeanPMeanSDMeanM3.;run;运行结果:程序说明:(1)“NOPRINT”告诉SAS不产生任何输出结果,因为已经存入新数据集zoosum;(2)保存统计量的新数据集,包括想要的统计量、BY/CLASS语句的变量、_TYPE_、_FREQ_;(3)BY语句变量有3个水平:756-01、834
8、-01、901-02,结果是3个观测,CLASS类似。二、合并统计量到原数据集1.前面讲到将按“BY变量”分组统计量保存为统计量数据集,进一步可以用MERGE语句,将统计量数据集按照公共的“BY变量”,通过一对多匹配合并到原数据集。例3运动鞋经销商的销售数据(C:MyRawDataSh
此文档下载收益归作者所有