《数据描述性分析》PPT课件

《数据描述性分析》PPT课件

ID:39536558

大小:802.60 KB

页数:71页

时间:2019-07-05

《数据描述性分析》PPT课件_第1页
《数据描述性分析》PPT课件_第2页
《数据描述性分析》PPT课件_第3页
《数据描述性分析》PPT课件_第4页
《数据描述性分析》PPT课件_第5页
资源描述:

《《数据描述性分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据描述性分析内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除数据描述性分析数据分析研究的对象是数据,它们是个观测值:如果这个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。,均值、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值:即是的平均数:均值表示数据的集中位置。均值、方差等数字特征2方差、标准差与变异系数方差是描述数据取值分散性

2、的一个度量,其量纲是数据量纲的平方。标准差均值、方差等数字特征变异系数:刻画数据相对分散性的度量CV=校正平方和CSS=未校平方和USS=均值、方差等数字特征3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩K阶中心矩均值、方差等数字特征偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。频数频数频数偏向左<0对称=0偏向右>0均值、方差等数字特征峰度当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,

3、否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。总体的数据特征设观测数据是由总体X中取出的样本,总体的分布函数是F。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度刻画。连续分布中最重要的是正态分布,它的概率密度及分布函数分别为具有正态分布的总体成为正态总体总体的数据特征与样本数字特征对应的是总体的数字特征总体均值总体方差总体标准差总体变异系数总体的数据特征总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体峰度是以同方差的正态分布为标准,比较总体分

4、布尾部分散性的指标。细尾,峰度为负正态分布,总体峰度为0粗尾,峰度为正总体数字特征和样本数字特征根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有总体数字特征和样本数字特征当观测数据是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据是等可能性的,即为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征。例1从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.

5、4511.9010.309.589.247.756.208.958.33计算均值、方差、标准差、变异系数、偏度、峰度。通过计算,得=8.487,=3.046,=1.845,CV=21.745,=0.035,=-0.852,的绝对值比较小,可以认为是来自正态总体的数据。中位数、分位数、三均值与极差均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。次序统计量设是n个观测值

6、,可以理解为来自某些总体的样本。将其按数值大小记为这就是次序统计量。最小统计量与最大统计量分别为:中位数与极差中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。中位数与极差对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。极差的计算公式是它是描述数据分散性的数字特征。数据越分散,极差越大。例考虑下列样本:53113178写出次序计量,并求中位数、极差。对和容量为的样本它的分位数是其中[np]表

7、示np的整数部分,当p=1时,M1=x(n)分位数0.5分位数就是中位数M.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,并简记为下列分位数也在实际应用中经常用到:,,,,,。例考虑下列样本:53113178计算上面数据的,,及,,,,,。以此类推,我们可以得到其他的结果:均值与中位数M皆是描述数据集中位置的数字特征。计算时,用了样本的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。