多组和分类数据的描述性统计分析.pdf

多组和分类数据的描述性统计分析.pdf

ID:52457021

大小:191.91 KB

页数:6页

时间:2020-03-27

多组和分类数据的描述性统计分析.pdf_第1页
多组和分类数据的描述性统计分析.pdf_第2页
多组和分类数据的描述性统计分析.pdf_第3页
多组和分类数据的描述性统计分析.pdf_第4页
多组和分类数据的描述性统计分析.pdf_第5页
资源描述:

《多组和分类数据的描述性统计分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、x3.2多组和分类数据的描述性统计分析17²盒子图盒子图能够直观简洁地展现数据分布的主要特征.我们在R中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为触须"(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier).x3.2多组和分类数据的描述性统计分析在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合

2、使用.1.图形表示:²散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明.library(DAAG);plot(hills)²盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子

3、变量的不同水平下的盒子图.我们可采用类似如下的命令:boxplot(skullw»age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置.boxplot(possum$skullw»possum$sex,horizontal=T)²条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为coplot(formula,data)¯¯比如coplot(possum[[9]]»possum[[7]]¯possum[[4]]),或¯¯c

4、oplot(skullw»taill¯age,data=possum);¯¯coplot(skullw»taill¯age+sex,data=possum)18第3章R:描述性统计量,绘图,参数估计和假设检验²直方图:一个方法就是使用mfrow将绘图框分隔多个部分,然后直接反复使用hist()对各个变量做直方图.par(mfrow=c(1,2));hist(faithful[[1]]);hist(faithful[[2]])另一种直接方法是使用lattice包中的直方图函数,histogram().lattice包是一个强大的绘图软件包,我们以后还会对其中的常用函数加以介绍.¯¯x<{pos

5、sum;histogram(»x[[7]]¯x[[4]])²密度曲线图:这里我们欲绘出某一数值变量在某个因子变量的不同水平下的密度曲线图,可采用lattice包中的densityplot,举例如下:¯¯¯¯densityplot(»skullw¯age,data=possum);densityplot(»skullw¯sex,data=possum)2.描述性统计分析:²前面介绍的summary()函数可直接对数据框操作.如library(DAAG);summary(cuckoos)²tapply()能够方便地对分组数据进行函数操作.a1<{tapply(cuckoos$length,cuc

6、koos$species,mean);a2<{tapply(cuckoos$length,cuckoos$species,sd);a3<{tapply(cuckoos$length,cuckoos$species,median);cbind(mean=a1,std=a2,median=a3)a1<{tapply(cuckoos$length,cuckoos$species,mean);a2<{tapply(cuckoos$breadth,cuckoos$species,mean);a3<{tapply(cuckoos$id,cuckoos$species,mean);cbind(length

7、.mean=a1,breadth.mean=a2,id.mean=a3)其它函数,如¯venum等,亦可,不过注意此时输出地是一个list.另外注意对有缺失的数据,使用na.rm=T.²为了计算不同因子变量所对应的各数值变量的描述性统计量,我们还可方便地使用分组概括函数aggregate.该函数作用同tapply类似,不同的在于其对数据框直接操作,返回值也是数据框.举例来说,aggregate(cuckoos

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。