欢迎来到天天文库
浏览记录
ID:48331706
大小:2.15 MB
页数:15页
时间:2019-10-27
《arcgis-地统计分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第八章地理信息系统:空间统计与空间数据挖掘8.2地统计分析地统计是统计的一类,用于分析和预测与空间或时空现象相关的值。它将数据的空间坐标纳入分析中,以变异函数为主要工具,研究那些分布于空间上既有随机性又有结构性的自然或社会现象的科学(秦昆,GIS空间分析理论与方法,2004)。最初,地统计工具作为使用方法进行开发,用于描述空间模式和采样位置的插值。现在这些工具和方法均得到了改进,不仅能够提供插值,还可以衡量所插入的值的不确定性。通过对变异函数、克里格估计以及随机模拟方法的深入扩展,地统计已经成为空间统计学的核心内容,学科的主要内容包括区域
2、化变量的变异函数模型、克里格估计、随机模拟三方面(秦昆,GIS空间分析理论与方法,2004)。相对于物理机制建模,地统计是一种分析空间位置相关地学信息的经验性方法(赵鹏大,2004)。接下来将介绍地统计研究的工作流程和主要步骤,并结合ArcGISGeostatisticalAnalyst工具进行实践演示。地统计是用于分析和预测与空间或时空现象相关联的值得统计数据类。利用GIS工具可以构建使用空间坐标的模型。这些模型可以应用于各种情况并通常用于生成未采样位置的预测,也可以用于生成这些预测的不确定性的度量值。一般情况下,地统计研究的流程为:第
3、一步仔细检查数据。第二步构建地统计模型,根据研究目的和数据集要素的不同,建模过程的步骤会有些差异。在这一阶段,对数据集进行严密地探索并收集信息,扩增对所研究对象的先验知识,这将决定模型的复杂程度和内插值的准确性,以及不确定性的度量值的准确性。第三步将所建模型与数据集结合来生成感兴趣区域内所有未采样位置的内插值。最后模型的输出应该经过检查,确保内插值和相关的不确定性的度量值是合理的并与预期相匹配。我们继续以上文中提到的某市区垃圾站数据为例,结合GIS工具具体介绍如何利用地统计建模插值。8.2.1探索性空间数据分析19世纪60年代的Tukey
4、面向数据分析的主题,提出了探索性数据分析(EDA,exploratorydataanalysis)的新思路,解决了传统统计分析中数据不能满足正态假设,基于均值、方差的模型在实际数据分析中缺乏稳定性的问题,并且满足了对海量数据进行分析的要求。EDA的特点是对数据来源的总体不作假设,并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概况的方法对数据的特征进行分析和描述,技术核心是“让数据说话”,在探索的基础上对数据进行更为复杂的建模分析(王远飞,何洪林,2007)。在EDA的基础上衍生而出的是探索性空间数据分析(ESDA,expl
5、oratoryspatialdataanalysis),是EDA在空间数据分析领域的推广。在使用插值方法之前,应该使用ESDA工具浏览数据。此工具能使我们更深入地了解数据并为插值模型选择最合适的方法和参数。例如,如果使用普通克里金法生成分位数图,应该事先检查数据的分布,因为是在数据是呈正态分布的前提下才能采用这一方法,如果数据不是正态分布的,应该在插值模型中包含数据变换的操作。检测数据的空间趋势也是ESDA的一大功能。ESDA环境允许用户用图形的方法研究数据集,从而能更好的理解所要研究的数据集。每个ESDA工具都对该数据给出一个不同的视图
6、并在单独的窗口中显示出来。这些不同的视图包括直方图(histogram)、voronoi地图、正态QQplot分布图、趋势分析(trendanalysis)、半变异/协方差函数云等。对于我们接下去将要介绍的克里格插值方法,如果数据的分布近似于正态分布,使用克里格插值法时将会收到更好的效果。利用直方图与正态QQPlot分布图可以检验数据分布是否呈现正态分布。克里格插值方法是建立在平稳假设的基础上,这个假设要求分布中的数据值具有相同的变异性。而实际情况却是当值增加时,其变异性也增加。需要通过一些数据变换方法让数据变换到正态分布,并满足相同变异
7、性的假设(吴秀芹,2007)。而最常用的数据变换方法包括Box-Cox变换、对数变换、反正弦变换。通过观察均值和中值可以确定分布的中心位置,一般来说,如果数据集的中值和均值非常接近,偏度为零,峰度接近于3,则可以判断其分布近似于正态分布。数据变换中应当注意的是,在对一个数据集进行数据变换后,在生成预测表面时必须进行还原变换,还原变换将给出一个具有近似克里格标准差的近似无偏估计。在ArcMap中可以利用直方图和QQPlot图直观地检验数据分布的形状,并且当数据分布不理想时,可以通过上文提到的数据变换方法进行变换。在进行探索性分析时,除了总览
8、数据分布与数据变换,另一大功能便是识别异常值。全局异常值是相对于数据集中的所有值具有异常高值或低值的样本点;而局部异常值是指对于一个样本点,其取值范围对于整个数据集来说是处于一个正常的范围内,
此文档下载收益归作者所有