资源描述:
《《空间统计分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第9章DEM地形统计分析9.1概述9.1.1基本概念地形统计分析是指应用统计方法对描述地形特征的各种可量化的因子或参数进行相关、回归、趋势面、聚类等统计分析,找出各因子或参数的变化规律和内在联系,并选择合适的因子或参数建立地学模型,从更深层次探讨地形演化及其空间变异规律。9.1.2主要分析内容1.原始DEM数据及派生地形因子基本统计特征的分析地形因子的最大值、最小值、极差、中值、总和、平均值、离差、方差、标准差、频数等基本统计量2.地形因子关联特征及空间分布规律的研究对地形因子分析的主要内容之一就是
2、查明因子之间的相互关系和内在联系,并选定合适的因子建立地学模型,利用这种模型对地形的发展与动态做出数值预测。9.2基本统计量常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用平均数中位数众数分位数偏度峰度总和比率比例种类集中趋势描述数据特征的统计量离散程度基本统计量其他统计量分布形状极值极差离差平均离差离差平方和方差标准差变差系数图1
3、0.1基本统计量9.2.1代表数据集中趋势的统计量(1)频数和频率将变量xi(i=1,…,n)按照大小顺序排列,并按一定的间距分组,变量在各组出现或发生的次数称为频数(absoluterfrequency);各组频数与总频数之比叫做频率(frequency)。如有一组测量数据,数据的总个数N=148最小的测量值xmin=0.03,最大的测量值xmax=31.67,按组距为△x=3.000将148个数据分为11组,其中分布在15.05~18.05范围内的数据有26个,则称该数据组的频数为26。再如在3
4、.149324中,‘9’出现的频数是3,出现的频率是3/18=16.7%计算出各组的频率后,可以作出频率分布图,若以纵轴表示频率,横轴表示分组,就可以作出频率直方图,用以表示事件发生的频率和分布状况。分组编号数值频数频率1(1~3)1,1,2,3,3,360.242(4~6)4,5,5,640.163(7~9)7,8,8,8,950.204(10~12)10,10,11,1240.165(13~15)13,13,14,14,15,1560.24频率分布表频率直方图9.2.1代表数据集中趋势的统计量(
5、2)平均数(mean)平均数反映了数据取值的集中位置。对于数据Xi(i=1,2,…,n),通常有简单算术平均数、加权算术平均数、调和平均数和集合平均数。简单算术平均数:将所有数据的数值相加,再除以数据的总数目,公式为加权算术平均数(Weightedmeans):当数据对数据总体的影响的权重值不同时,计算该平均数,将每个数据乘以权值后再相加,所得到的和除以数据的总体权重数,计算公式为例:你的小测成绩是80分,期末考成绩是90分,老师要计算总的平均成绩,就按照小测40%、期末成绩60%的比例来算,所以你
6、的平均成绩是:80×40%+90×60%=86调和平均数(harmonicmean):各个数据的倒数的算术平均数的倒数,又称为倒数平均数,调和平均数也分简单调和平均数和加权调和平均数,其公式分别为几何平均数(geometricmean):是n个数据连乘的积开n次方根,计算公式为(3)中位数(Median)一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数,注意:和众数不同,中位数不一定在这组数据中)。中位数的定义可知,所研究的数据中有一半小于中位数,一半大
7、于中位数实例:第1组数:1、2、3、6、7的中位数是3。原理:如果总数个数是奇数的话,按从小到大的顺序,取中间的那个数第2组数:1、2、3、5的中位数是2.5。原理:如果总数个数是偶数的话,按从小到大的顺序,取中间那两个数的平均数.(2+3)÷2=2.5第3组数:1、100、101、10000的中位数是100.5注意:中位数和数值的大小没有绝对的关系(4)众数(Mode)众数是数据集中出现频数(次数)最多的某个(或某几个)数。(众数可以不存在或多于一个)例如:1,2,3,3,4的众数是3。但是,如果
8、有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。例如:1,2,2,3,3,4的众数是2和3。还有,如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4,5没有众数。9.2.2代表数据离散程度的统计量有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散