由数据,分析位置特性-分散性-关联性-

由数据,分析位置特性-分散性-关联性-

ID:26867163

大小:338.00 KB

页数:19页

时间:2018-11-29

由数据,分析位置特性-分散性-关联性-_第1页
由数据,分析位置特性-分散性-关联性-_第2页
由数据,分析位置特性-分散性-关联性-_第3页
由数据,分析位置特性-分散性-关联性-_第4页
由数据,分析位置特性-分散性-关联性-_第5页
资源描述:

《由数据,分析位置特性-分散性-关联性-》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第1章数据描述性分析由数据,分析位置特性-分散性-关联性-等§1.1一维数据的数字特征来自总体一维数据称为样本观测值(样本容量为)主论:集中位置、分散程度、分布形状1.位置的数字特征(1)均值(Mean),简易,但不稳健(难抗异值)次序统计量值:第19页共19页第1章数据描述性分析(由排序而得),其中,(2)中位数(Median)较稳健,抗异值;(若数据对称,则两边个数约等)(3)第19页共19页第1章数据描述性分析其中,当时,规定:.常用上、下四分位数:,.(4)三均值(较准、较稳)(5)连续型总体分布的分位数()当惟一时,在

2、一定条件下,有样本分位数总体的分位数故当充分大时,有(相合估计)第19页共19页第1章数据描述性分析例1.1100个女生的血清蛋白含量(g/L)数据如下:求均值,中位数,上,下四分位数,,,,,分位数,三均值.第19页共19页第1章数据描述性分析解:用过程procunivariate来实现,结果为QuantileEstimate100%Max84.3099%82.9595%80.5090%79.1575%Q375.8050%Median73.5025%Q171.2010%68.405%67.301%64.650%Min64.30

3、第19页共19页第1章数据描述性分析prociml;/*iml1.sas*/m=0.25*75.80+0.5*73.50+0.25*71.20;printm;2.分散性的数字特征(1)样本的方差标准差变异系数;;(Variance,StdDeviation)第19页共19页第1章数据描述性分析变异系数(CoefficientVariation):.(无量纲)若来自总体,则分别是总体的的相合估计,即当充分大时,有(2)极差(Range)四分位极差(InterquartileRange);(抗扰,稳健)第19页共19页第1章数据描述

4、性分析对于正态总体,有总体的,故总体的四分位极差这时若总体标准差存在,则得的(抗扰)估计(称为四分位标准差)第19页共19页第1章数据描述性分析(3)异常值简易判别法数据的上、下截点:,,界外视为特小、大值,统称异常值若总体为,理论上的上、下截点为,界外概率为0.00698,即异常值比例约为0.7%.例1.2第19页共19页第1章数据描述性分析计算例1.1血清蛋白含量数的方差、标准差、变异系数、极差、四分位极差、四分位标准差、并分析是否有异常值.解调用类似的过程example1_2.sas,可得,下、上截点:64.3和82.7,

5、剔除84.3,再计算得结果表明:中位,四分位抗扰,均值和标准差都有变化(敏感)第19页共19页第1章数据描述性分析3.形状的数字特征(1)偏度(数据的)(Skewness)左偏态(负偏)对称右偏态(正偏)(2)峰度(数据的)(Kurtosis)第19页共19页第1章数据描述性分析以正态分布为标准,比较两侧端数据分布情况.(数据分布边缘-正态(密度)分布边缘)若数据呈现正态,则;若,则含有较多远离均值的极端数据;若,则含有较少的极端数据.第19页共19页第1章数据描述性分析(3)总体的偏度、峰度设是取自总体的样本,3、4阶中心矩,

6、则总体的偏度和峰度分别为和,数据的和是总体的和的相合估计,故当相当大时,有和第19页共19页第1章数据描述性分析若总体是对称分布,则,故有,余见图.总体峰度是以同方差的正态分布为准,比较尾部分.若总体分布为正态,则有,故有;当,称~为粗尾的,当,称~为细尾的第19页共19页第1章数据描述性分析(4)多维数据简介对每一分量,分别计算其数字特征.例1.3第19页共19页第1章数据描述性分析从1952年至2001年,我国国民生产总值、第一产业(农业)、第二产业(工业与建筑业)、第三产业的产值见表1.1(单位:亿元).分别计算国民生产总

7、值、第一、二、三产业产值的主要数字特征并考察异常值情况.表解:调用example13.sas,可得(1)国民生产总值:,,.(2)第一产业第19页共19页第1章数据描述性分析,,.(3)第二产业(4)第三产业第19页共19页第1章数据描述性分析特征:(1)与差距大,有较散的数据;(2)且较大,有较多偏右态的数据(3)且较大,分布呈现粗尾,有较多的大值表明:我国国民生产总值及各类产业总值在迅速增长,尤其是改革开放二十余年来,增长更快.用计算上截断点,分别得国民生产总值的上截点:40087.5第一产业产值的上截点:9731.5第19

8、页共19页第1章数据描述性分析第二产业产值的上截点:17291.7第三产业产值的上截点:12823.55由表1.1可知1994年及以后的数据是特大值.说明:自1994年后,国民经济生产总值及各产业产值增加更大.第19页共19页

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。