欢迎来到天天文库
浏览记录
ID:56373745
大小:2.80 MB
页数:88页
时间:2020-06-14
《数据分析基础资料.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、《数学建模素养》基础篇之统计数据分析主讲教师高全胜教授1.基本统计分析1.1基本统计分析概述一、基本统计分析包括的内容①频度分析Frequencies②统计描述Descriptives③探索性数据分析Explore④多维频数分布交叉列联表Crosstable⑤摘要报告表Summarize⑥行形式的输出报告ReportSummariesinRow⑦列形式的输出报告ReportSummariesinColumn二、统计分析的特殊图形箱图Boxplot茎叶图Stem-andLeafPlot1.2单变量的统计描述集中趋势的的描述指标1
2、.2.1算术平均算术平均(ArithmeticMean)是最常用的描述集中趋势的统计量。总体均数(PopulationMean)用希腊字母表示,样本均数常用表示。一、算术平均数的定义和性质二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些有用的信息。一方面它把各个观测数据之间的差异性掩盖了起来,另一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围严格的讲平均数指示用于定距变量。但
3、有时对于定序变量,求平均等级也可以使用平均数。1.2.2中位数中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为:则中位数就可以按下列方式确定:中位数的适用范围:具有稳健性。被平均的实例。1.2.3其他集中趋势指标一、截尾均数由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数河源均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数
4、据中有极端值,此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。二、几何均数几何均数适用于原始数据分布不对称,但经过对数转换后称对称分布的资料。几何均数实际上就是对数转换后的数据lgX的算术平均数的反对数。四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数(Mode)众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量,特别适用于单峰对称的情况,是比较两个分布是否接近首先要考虑的参数。1.3离散趋势的描述指标1.3.1全距(Range)又称为极差,是一组数据中最大值
5、(Maximun)与最小值(Minimum)之差。极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。极差存在两点不足:一是它仅仅取决于两个极端之的水平,不能反映其间的变量分布情况,提供的信息太少。二是它容易受个别极端值的影响,不符合稳健型的要求。1.3.2方差和标准差方差(Variance)和标准差(StandardDeviation)的定义将离均差平方和(SumofSquaresofDeviationfromMean,SS)除以观察例数N,就得到方差:方差越大,数据分布离散程度越大。对于
6、样本数据而言,方差的计算公式为:将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。1.3.3百分位数、四分位数与四分位数间距一、分位数分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测之分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它大。四分位数(quartile)、十分位数(decile)、百分位数(percentile),他们分别是用3个点、9个点、99个点
7、将数据4等分、10等分和100等分后各分位点上的值。二、四分位数四分位数:实际上是三个数值的总称,分别是P25、P50、P75分位数。很显然,中间的分位数是中位数,因此通常所说的四分位数是指第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。三、奇异值数据点到主体边缘的距离超过箱高的1.5倍。上奇异值>=(75%百分位数-25%百分位数)*1.5+75%百分位数下奇异值<=25%百分位数-(75%百分位数-25%百分位数)*1.5四、极端值数据点到主体边缘的距离超过箱高的3倍。上极端值>=(75%百分位数-25%百分位
8、数)*3+75%百分位数下极端值<=25%百分位数-(75%百分位数-25%百分位数)*31.3.4变异系数当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况:(1)测量尺度相差太大;(2)数据量纲不同在以上情形中,就应当消除测量
此文档下载收益归作者所有