资源描述:
《数据的分析 知识点(节选).doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、1•权的理解:反映了某个数据在整个数据中的重要程度。学会权没有直接给出数量,而是以比的或百分比的形式岀现及频数分布表求加权平均数的方法。2.将一组数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,则处于屮间位置的数就是这组数据的中位数(median);如果数据的个数是偶数,则中间两个数据的平均数就是这组数据的屮位数。3•—组数据中出现次数最多的数据就是这组数据的众数(mode)o4.一组数据中的最大数据与最小数据的差叫做这组数据的极差(range)o5.方养(方差是各个数据与平均数之差的平方和的平均数。)越
2、大,数据的波动越大;方差越小,数据的波动越小,就越稳定。数据的收集与整理的步骤:1.收集数据2.整理数据3.描述数据4.分析数据5•撰写调杳报告6.交流6.平均数受极端值的影响,众数不受极端值的影响,这是一个优势,屮位数的计算很少不受极端值的影响。一、随机抽样从总体屮抽取样木时,为使样木具有代表性,第一,要求抽样必须是随机抽样,通常可以用随机数表来实现随机抽样。第二,还要求抽样必须是独立的,即每次抽样的结果互不影响。在概率论中,在有限总体(只有有限个个体的总体)中进行有放冋抽样,是独立的随机抽样;若为不放冋抽样,则是不独
3、立的抽样。但当总体容最N很大但样木容最n较小(n/N<=10%)时,不放冋抽样可以近似地看做放冋抽样,即可近似看做独立随机抽样。最常川的“简单随机抽样”有如下两个要求:1、样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本2、样本要有独立性,即要求样本中每一样品的取值不影响其他样品的取值注:一般来讲,如果是定性分析,最小样木量为15个;定量分析屮,一个细分配额的最小样木量为30个。二、数据整理对样木数据的柴理是统计研究的基础,整理数据最常用的方法之一是给出其频数分布表或频率分布表。整理的步骤:1、对样木进行分组
4、。首先确定组数k,作为一般性的原则,组数通常取5WkW20,对容量较小的样本,通常将其分为5组或者6组;容量为100左右的样木可分为7到10组;容量为200左右的样木可分为9到13组;容量为300以上的样本可分为12到20组。这样做的目的是使用足够多的组来表示数据的变异。2、确定每纟fUH•距。每组组距长度可以相同也可以不同,实践屮常选用长度相同的区间以便于进行比较,此时各组区间的长度成为组距,其近似公式为:组距d=(样木最大观测值■样木最小观测值)/组数3、确定每组组限。各组区间端点为a0,aO+d=al,aO+2d=
5、a2,…,a()+kd=ak,形成如下的分组区间:(a0,al],(al,a2],・・・,(a(k・l),ak],其中,a0略小于最小观测值,ak略大于最大观测值。通常可以用毎纟R的纟R屮值来代表该纟R的变量取值,纟R屮值=(纟R上限+组下限)/2三、数据分析1、平均数在统计上,平均数有三个具体的种类,分别是:均值(m^n)、中位数(medi力n)和众数(mode)o均值是指在一组数据中所有数据之和再除以数据的个数。平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。平均数容易受极端值(极端值又可分为单变
6、量的极端值(univariateoutlier)与多变量的极端值(multivariateoutlier)两种。)的影响。平均数包括算术平均数、加权算术平均数、调和平均数和儿何平均数。我们经常使用的是算术平均数和加权平均数(1)算数平均数算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。算数平均数二al+a2+・・・+an(2)加权平均数加权平均数是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算,若n个数屮,xl出现fl次,x2出现f2次,…,xk出现fk次,那么
7、(xlfl+x2f2+・・・xkfk)4-(fl+f2+…+fk)叫做xl,x2,…,xk的加权平均数。fl,f2,…,fk是xl,x2,…,xk的权。加权算术平均数主要用于处理经分组整理的数据。2)中位数是将所有数据按照由小到大进行排列,若数据为奇数个,屮位数为屮间那个数据;若数据为偶数个,屮位数则是屮间两个数的平均值。屮位数刻tai了一纟R数据的屮等水平。屮位数不受极端值的影响。屮位数在数据分布偏斜程度较大时应用。3)众数是指一组数据中,出现频次最高的那个数据。一组数据可以有多个众数,也可以没有众数。众数刻曲了一组数
8、据屮出现次数最多的情况。众数不受极端值的影响。众数适合于数据量较多时,并且在数据分布偏斜稈度较大且有明显峰值时应用。说明:平均数的优点是它能够利用所有数据的特征,比较好算。并且平均数是使误并平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。但是平均数容易受极端数据的影响。而屮位数和众数都能够避免