数据分析方法MATLAB实现.ppt

数据分析方法MATLAB实现.ppt

ID:51189839

大小:1.73 MB

页数:79页

时间:2020-03-20

数据分析方法MATLAB实现.ppt_第1页
数据分析方法MATLAB实现.ppt_第2页
数据分析方法MATLAB实现.ppt_第3页
数据分析方法MATLAB实现.ppt_第4页
数据分析方法MATLAB实现.ppt_第5页
资源描述:

《数据分析方法MATLAB实现.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、普通高等院校计算机课程规划教材MATLAB数据分析方法李柏年吴礼斌主编张孔生丁华参编第2章数据描述性分析数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.2.1基本统计量与数据可视化2.1.1样本数据的基本统计量描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值1.均

2、值、中位数、分位数与三均值数据(x1,x2,…,xn)的平均值称为该数据的均值,记为x1,x2,…,xn这n个值称为样本数据,简称数据,n称为样本容量.我们的任务就是要对样本数据(2.1.1)进行分析,提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断.(2.1.1)(2.1.2)样本均值描述了数据取值的平均位置.样本均值计算简易,但易受异常值的影响而不稳健.又将数据(2.1.1)按从小到大的次序排列,排序为k的数记为x(k)(1kn),即x(1)x(2)…x(n),称(2.1.3)为数据(2.1.1)的次序统计量.由

3、次序统计量定义数M,称M为数据(2.1.1)的中位数。(2.1.4)中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性.设0p<1,样本数据(2.1.1)的p分位数定义为(2.1.5)其中[np]表示np的整数部分.显然,当p=0.5时,M0.5=M,即数据的0.5分位数等于其中位数.一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有100p%个不超过样本数据的p分位数.在实际应用中,0.75分

4、位数与0.25分位数比较重要,它们分别称为上、下四分位数,记为Q3,Q1.虽然均值与中位数都是描述数据集中位置的数字特征,但是均值用了数据的全部信息,中位数只用了部分信息(位置信息),因此通常情况下均值比中位数有效.当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义三均值如下:(2.1.6)由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。MATLAB提供了求均值、中位数、分位数的命令.(1)均值命令

5、mean,其调用格式m=mean(X);其中,输入X为样本数据(2.1.1),输出m为样本均值。(2)中位数命令median,其调用格式MD=median(X);其中输入参数X是样本数据(2.1.1),输出MD为中位数.(3)P分位数命令prctile,其调用格式SM=prctile(X,P);其中输入参数X是样本数据(2.1.1),P为介于0至100间的整数,P=100*p,输出SM为P%分位数。注意:当样本数据X是矩阵时,上述三个命令的输出将给出X的每列数据的相对应的数值,参见例2.1.1.(4)根据分位数命令及公式(2.1.6),可

6、编写求三均值的MATLAB程序如下。w=[0.25,0.5,0.25];%输入权向量wSM=w*prctile(X,w);%由(2.1.5)式计算X三均值例2.1.1.根据安徽省统计年鉴数据(表2.1)计算各指标均值、中位数以及三均值.项目6数据描述性分析例6-1表6-1是某省各市森林资源情况统计数据,计算各指标均值、中位数以及三均值。地区林业用地面积(khm2)森林面积(khm2)森林覆盖率(%)活立木总蓄积量(m3*104)森林蓄积量(m3*104)A53.9350.9815.48256.0065.41B44.9240.3814.99

7、211.07151.14C148.19145.5417.10842.09677.52D293.86279.8628.801238.011035.67E86.9674.6412.91302.67299.32F791.50680.9677.803298.563252.88G598.92546.6735.602291.092099.21项目6数据描述性分析1、导入数据(方法一)原始数据是excel文件:data=xlsread('d:ys');%导入数据;(方法二)或先将excel文件放到work文件夹中,再B=xlsread('yuansh

8、ishuju.xls')(方法三)如果数据文件保存在excel的某个sheet中,我们的使用方式为:A=xlsread('data.xlsx','Sheet1');2、导出数据用save'b.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。