资源描述:
《样本与统计量、数据的简单处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、样本与统计量数据的简单处理前言数理统计是应用广泛的一个数学分支,它以概率论为理论基础,研究如何合理地获得数据资料,建立有效的数学方法,根据所获得的数据资料,来研究随机现象的规律性,对研究对象的性质作出合理的估计和判断。在这个课程里,我们学习数理统计学的初步,主要讲述估计与检验等原理,线性回归与方差分析等统计方法。总体与样本总体(母体)——研究对象的全体。个体——总体中的每一个元素。欲研究或推断总体X的性质,似乎应对每一个个体逐一测定,但这样的做法很多时候是不必要或是不可行的。比如考察广州人的身高、体重,某种导弹的爆炸威力,某电子元件的寿命等。我们只能在总体中随机
2、抽取部分个体出来测定。这就是——抽样。在数理统计学中,我们是对总体的一个或若干个数量指标进行研究,这样,对总体的研究就归结为对随机变量的研究。以后说到总体时,指的就是它对应的某个或某些随机变量。总体与样本样本(子样)——从总体中随机抽取出来的部分个体作成的集合。记为:样本中所含的个体的数目。样本(子样)容量——注意到这里每个Xi因随机抽取而随机取值,所以也是随机变量。抽样完成后得到的确切结果:是维随机变量的一个观察值。称为样本值或子样观察值。总体与样本为保证抽取出来的样本能够反映出总体的性质,要求样本具有代表性,即每个Xi与X同分布;还要求具有独立性,即是相互独
3、立的。满足以上条件的样本(子样)称作简单随机样本(子样)。要获得简单随机样本(子样),对有限总体,应作有放回的随机抽样,对无限总体或总体相当大时,也可作无放回的随机抽样。统计量当我们不能完全掌握某一总体的分布函数时,只要掌握了总体的某些数字特征(总体参数),就可基本上确定该总体的分布,当总体参数也未知时,就只能依据样本对未知数进行推断。通常我们利用样本构造出某种函数作为推断的基础。这就是所谓的统计量。统计量——样本对应的不含未知参数的实值函数,记作:它本身也是一随机变量。它的分布称作抽样分布。设是随机变量X的一个样本。样本均值——通常作为总体X的均值的一个估计值
4、。样本方差——通常作为总体X的方差的一个估计值。样本标准差(均方差)——通常作为总体X的标准差(均方差)的一个估计值。常用统计量估计量的无偏性数据的简单处理数据整理(分组)——(1)根据样本容量n确定分组数k当时,当时,当时,(2)计算组距(一般采用等距分组,也可据实际情况分组)组距等于比极差(原始数据中的最大值M与最小值m之差)除以组数k略大的测量单位的整数倍。如:则取组距为5。当时,一般地,数据整理(分组)——(3)确定组限和组中点值一般地,组的上限与下限应比数据多一位小数。这样可保证每组所含的原绐数据不重叠。(可据实际问题另作要求)设现有50个原始数据(均
5、是整数),决定分作8个小组,数据中的最大值是100,最小值是65,则组距组距组数取得分组如下:组中点值分别为:一般遵循“上限不在内”的原则(解决实际问题时,也有出现开口组的情形)数据的简单处理数据整理(分组)——(4)计算各组频数和频率,作频数和频率分布表频数指落在第组的数据个数,频率为频数与总数据量之比:(5)作频率直方图要把每一小组的频率用一小矩形的面积去表示,方法是:以样本值为横坐标,频率/组距为纵坐标,以分组区间为底,以频率/组距为高作一系列矩形。频率直方图示意图:要把每一小组的频率用一小矩形的面积去表示,方法是:以样本值为横坐标,频率/组距为纵坐标,以
6、分组区间为底,以频率/组距为高作一系列矩形。数据的简单处理计算样本的特征数(统计量)——常用的描述集中趋势的特征数——样本均值——中位数——数据按大小顺序排列后位于中间位置的那个数。众数——样本中出现次数最多的那个数。样本几何均值——数据的简单处理计算样本的特征数(统计量)——常用的描述分散程度的特征数——样本方差——样本标准差——极差(全距)——标准误——数据的简单处理计算样本的特征数(统计量)——常用的描述分散程度的特征数——四分位差Qd——满足Q1为第1四分位数——满足Q3为第3四分位数——满足即当数据按大小顺序排列后排在第一个四分之一位的数。其中:例1从
7、某班抽取10个男同学,测其身高如下(单位cm):计算样本均值和方差时,可利用均值和方差的性质将数据化简后再运算。175.5,172,168,173,172.5,169,169.5,178,171.5,172.试计算此样本的均值和方差。解:记题目所给数据为令则的数值分别为:3.5,0,-4,1,0.5,-3,-2.5,6,-0.5,0.所以样本的均值样本的方差例2设从总体中抽取一组观察值为0.98,1.01,0.99,1.11,0.8.试计算此样本的均值和标准差。解:记题目所给数据为令则的数值分别为:0,3,1,13,-18.所以样本的均值样本的方差样本的标准差数
8、据的简单处理可利用MIN