资源描述:
《统计基础三:统计描述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、统计描述统计描述与统计推断统计描述-对数据进行收集和描述的一些方法,以得出有意义的信息统计推断-对部分样本数据进行分析的方法,以得出对总体的预测或推断统计描述--概要数字量度描述数据的特性主要的数字量度:1、位置量度(中心)---分布集中趋势的测度2、离散量度(变化)---分布离散程度的测度3、形状量度(分布)---分布偏态与峰度的测度1、位置量度(MeasuresofLocation)平均值算术平均(Mean或Xbar)几何平均(G)调和平均(H)取舍平均(TrMean)中位数(Median)众数
2、(Mode)四分位数(Quartiles)平均值设有n个观察样本x1,x2,...,xn,则样本均值为平均值是最常用的衡量位置或数据中心的量.平均值设观察的总体中有N个个体,现从中抽取n个个体进行观察,则样本均值(samplemean)为而总体均值(populationmean)(记为)则为通常总体均值是未知的,可用样本均值来估计总体均值.例在1991年海湾战争的“沙漠风暴”行动中,美国空军(USAF)的F-117A战机共出动了1270次战斗,持续时间共6905小时.因此,在这次行动中一次F-11
3、7A任务的平均持续时间为中位数(Median)把样本x1,x2,...,xn从小到大重新排列得x(1),x(2),...,x(n),则样本中位数(samplemedian)定义为中位数的一个优点是具有稳健性,受极值的影响不大.如果n是奇数如果n是偶数例设样本观察值为1342786则样本均值和样本中位数分别为4.4和4.它们都可以合理地反映这些数据的中心位置.如果最后一个观察值改为1342782450则样本均值为353.6而样本中位数保持不变.众数(Mode)众数是指样本中出现次数最多的观察值.众数可
4、以是唯一的,也可以有多个,也可以不存在.例设观察值为3693583463110则样本众数是3.(出现了4次)设观察值为36935834631106256则样本众数有两个:3和6.(各出现了4次)设观察值为1342768则样本众数不存在.区分特征优点缺点均值[Xbar]1、全部数据的算术平均;2、各变量值与其均值的离差之和等于0;3、各变量值与其均值的离差平方和最小;4、调和平均(HM)主要用于不能直接计算均值的数据;5、几何平均(GM)则主要用于计算比率数据的平均数6、只适用于定距(G和H外)或定比
5、尺度的数据1、反映事物的必然性特征;2、是统计分析与统计推断的基础;3、应用最广泛;4、当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,应首选均值1、易受数据极端值的影响;2、对于偏态分布的数据,其代表性较差众数[Mo]1、是一组数据分布的峰值;2、可适用于4种度量尺度的数据1、易于理解2、不受极端值的影响;3、当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,其代表性比均值要好1、不具有唯一性中位数[Me]1、是处于一组数据中间位置上的代表值;2、可适用于4种度量尺度的数据1、不受
6、极端值的影响;众数、中位数和均值的特点及应用场合条件特征表达式示意图若数据具有单一众数,且分布是对称的Mo=Me=Xbar若数据是左偏分布说明数据存在极小值,必然拉动均值向极小值一方靠,而Mo和Me不受极值的影响Xbar7、观察值约占25%的点.第二分位点(或中位数)q2指小于它的观察值约占50%的点.第三分位点(或上分位点)q3指小于它的观察值约占75%的点.例把20个绝缘材料的失效时间(单位:小时)的观察值由小到大排列如下2042282523003244446247208169121176129613921488151225202856319235283710则2、离散量度(MeasuresofDispersion)极差(Range)方差(Variance)标准差(StandardDeviation)内分位极差(I
8、nter-QuartileRange)离散系数极差(Range)样本极差是指最大样本与最小样本之差.r=x(max)–x(min)样本极差是反映数据离散或变化的最简单的统计量,但它忽视了中间样本的所有信息.例考虑两组样本:1,3,5,8,9和1,5,5,5,9.它们有相同的极差(r=8).但很明显第二组样本只有头尾两个样本有变化,其余不变.因此用极差来反映离散的大小会损失许多信息.方差(Variance)和标准差(StandardDeviation)设x1,x2,..