欢迎来到天天文库
浏览记录
ID:14307661
大小:102.50 KB
页数:6页
时间:2018-07-27
《第3章 数据分布特征的描述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第3章数据分布特征的描述本章的主要目的:n掌握反映数据分布特征的中心、变化程度、位置等测度的工具;n会基本的考察性数据分析EDA报告。3.1分布集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,也就是寻找数据一般水平的代表值或中心值。如平均数、众数、中位数等。1.众数mode众数是一组数据中出现次数最多的变量值。是具有明显集中趋势的数值,一组数据分布的最高点所对应的数值即为众数。n既可用于定量数据,也可以用于定性数据。n可以有多个众数;也可以没有众数。图3-1。n对于组距分组数据,众数的数值与其相邻两组的频数分
2、布有一定的关系。首先要找出频数最多的组,即为众数组,然后按相关公式计算之。图3-2。实例3-1。n众数是一个位置代表值,不受数据中极端值的影响。其统计思想是:在一组数据的中心点附近,变量值出现的频数最高,根据众数组及相邻两组的频数分布,确定中心点的位置。2.中位数median中位数是一组数据按大小排序后,处于正中间位置上的变量值。n中位数将全部数据分为两部分,一部分比它大,另一部分比它小。n也是一个位置代表值,中位数据位置=(N+1)/2。n对于组距分组数据,要先根据位置确定中位数所在组,再按公式计算。实例3-2。n中
3、位数大小也不受极端值影响。3.平均数mean平均是指全部数据的算术平均。n总体平均数和样本平均数。n分组数据平均数的计算。以各组的组中值为代表。例3-3。加权平均数。n平均数是一个极为重要的统计变量,它是一组数据的重心所在,是数据误差相互抵消后的结果。n各变量值与其平均数的离差之和为0。n各变量值与其平均数的离差平方和最小。n平均数对每一个数值都很敏感。4.几何平均数arithmeticmean主要用于计算比率或速度的平均。例3-4。5.中列数midrange中列数是指原始数据集中最大值和最小值的平均。6.众数、中位数
4、和平均数的比较图3-3。n当数据呈对称分布或接近对称分布时,三个代表值相等或相近,此时选择平均数作为数据集中趋势的代表值,因为其代表了全部数据的信息且易被人理解。n当数据为偏态分布时,且偏斜程度较高时,应选择众数或中位数等位置代表值。n平均数只适用于定量数据。而众数和中位数还可以适用于定性数据。6课堂练习一:顾客在银行A(在那里所有顾客都进入一个等待行列)和银行B(在那里顾客在三个办事员窗口处列队三排等待)的等待时间(分钟)分别:银行A:6.56.66.76.87.17.37.47.77.77.7银行B:4.25.45
5、.86.26.77.77.78.59.310.0从集中趋势测度能否看出二者的区别?3.2分布离散程度的测度上面的练习告诉我们什么?银行为什么要让顾客在一个等待行列中等待?从集中趋势测度我们没发现什么区别,顾客只是希望等待时间更加稳定,变化少一些!数据的离散程度就是用来测度变化的,是数据分布特征的又一个极为重要的特征,它反映的是各变量值远离中心值的程度,离中趋势。1.极差全距。是一组数据的最大值和最小值的差。计算简单;只利用了数据两端的信息,不能反应中间数据的分散状况。2.方差和标准差方差是各变量与其平均值离差平方的平均
6、数。总体与样本的计算方式不同。A.总体方差和标准差。分组数据和未分组数据计算的不同。n标准差是有量纲的,与变量值的计量单位相同。n实际计算可以采取较简要的公式。B.样本方差和标准差。样本方差的计算是用样本数据个数或总频数减1去除离差平方和。n-1称为自由度。例3-5。课堂练习二:分别计算两个银行中顾客等待时间的标准差。3.标准化值z消除量纲的影响,是指一个已知值超过或低于平均数多少个标准差的个数。也给出了一组数据中各数值的相对位置。课堂练习三:美国NBA的M.Jordan身高78英寸,而WNBA的R.Lobo身高76英
7、寸。很明显,Jordan高2英寸,但谁相对来说更高一些?Jordan在男性中的身高是否超过了Lobo在女性中的身高?男性身高的平均数是69.0英寸,标准差为2.8英寸;女性身高平均63.6英寸,标准差2.5。[解答]要比较他们相对于男性和女性总体的身高,我们需要通过将这些身高值转化为z值来将它们标准化。Jordan:z=3.21;Lobo:z=4.96。Jordan的身高高于平均数3.21个标准差,而Lobo的身高高于平均数4.96个标准差,这是一个很大的数。Lobo在女性中的身高要高于Jordan在男性中的身高。4.
8、离散系数是一组数据的标准差与其对应的均值之比。n消除变量值水平高低和量纲的影响。n离散系数越大的说明该组数据的离散程度越大,否则越小。例3-65.解释和理解标准差n标准差度量的是数据之间的变化。紧凑的数据将会产生一个小的标准差,而比较分散的数据将会产生一个较大的标准差。实例:邮件的稳定性。这里介绍三种不同的理解标准差数值的方法。n
此文档下载收益归作者所有