欢迎来到天天文库
浏览记录
ID:12406341
大小:94.00 KB
页数:5页
时间:2018-07-16
《gis时态数据挖掘方法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、GIS时态数据挖掘方法的研究及应用刘佳1刘琳2张芳1陈伟1(1中国环境管理干部学院信息工程系秦皇岛066004;2秦皇岛职业技术学院信息工程系秦皇岛066004)摘要:时态GIS是GIS(地理信息系统)一个新兴的研究领域,随着GIS应用领域的不断拓宽,时态GIS的研究逐渐得到了人们的重视,使得探究和挖掘隐含于时空数据中的信息和规律成了研究重点和难点。针对GIS时态数据的特点,引入了流数据连续查询及动态存储处理的方法,研究了GIS时态数据的更新与优化,对如何提高GIS时态数据挖掘效率进行了探讨。关键字:流数据;GIS
2、;数据挖掘;时态数据;连续查询;动态存储1.引言GIS是一个描述客观世界的信息系统,其数据库中丰富的数据和信息本身就是大自然和人类社会活动的双重产物。随着时间的推移,地理现象的特征会发生变化,且这种变化可能很大。如何处理数据随时间变化的动态特性,是GIS面临的新课题。现有的GIS大多不具有处理数据的时间动态性,只是描述数据的瞬时状态。如果数据发生变化时,新数据将代替旧数据,即成了另一个瞬时状态,旧数据将会消失,无法对数据的更新变化进行分析,更不能预测未来的趋势,而在很多应用领域(地籍变更、环境监测、抢险救灾、交通管
3、理等)要求GIS能提供完善的时序分析功能,高效地预测、决策各类问题。然而GIS时态数据具有量大且动态变化性特点,加上系统本身的历史数据,导致数据仓库查询所处理的数据量很大,但查询响应时间必须很低才能支持交互的和迭代得数据分析,以便完成数据挖掘和发现过程。为了保证挖掘出的数据的可用率较高,必须保证数据信息库中数据的准确性、完整性和一致性,这给GIS时态数据挖掘带来了一定的困难本文结合流数据处理技术以及数据挖掘技术,以现代信息技术为基础条件,探讨了如何对大容量时态数据进行高效存储和更新以及如何实现GIS时态数据挖掘,为
4、GIS时态数据的历史分析与趋势分析的发展奠定基础。2流数据技术所谓流数据(streamingdata)[2]是指:一系列连续且有序的点组成的序列x1,…,xi,…,xn,按照固定的次序排列,这些点能被读取一次或者几次,形成了流数据。它们可以组成有序连续的元素列表[3],这些元素形成了连续不断变化的数据源。该数据与GIS时态数据具有相同的特性:①数据源源不断、数据不断更新;②数据变化频繁、具有实时性;③历史数据量大、数据存储困难;基于流数据技术原理的核心在于数据的连续查询及动态存储,是建立在“瞬间流”的数据集的概念上
5、,基于“推”的思想,由数据源不断的发送数据,致使产生连续变化的数据库,通过连续的查询过滤数据,通过动态存储再优化查询,数据库由传统被动处理数据变为主动处理数据。其数据处理思想见图2-1[4]。数据源流出的大量数据并非直接入库,而是先流经查询系统经过数据重组,按照查询规则完成第一次数据过滤,数据存到一级DB中,当对一级DB存储空间造成威胁的时候,实行动态存储策略[5],将比较不常用的信息转存到二级DB中,以此类推,直到数据不具备实际应用意义的时候,直接删除。图2-1SDMS—流数据管理系统模型图QueryyQuery
6、1Query2Queryn回收站一次过滤Streamout二次过滤一级DB二级DB多级存储过滤Streamin淘汰数据3GIS时态数据挖掘技术数据挖掘[1]是综合利用各种技术方法,从大量的数据中自动挖掘事先未知的且潜在有用的知识,提取出非显式存在的关系或其它有意义的模式等,揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的自动获取,从而提供技术决策与经营决策的依据。GIS数据挖掘是数据挖掘的一个分支,但有别于传统的数据挖掘,它所处理的数据中包含空间与非空间两种类型数据,且数据中有历史信息和时态
7、信息。其中,时态数据因为其生命周期短,而常常被忽略。如“台风、地震”等瞬时性比较明显的数据,虽然它的生命周期短,但是给客观世界带来的影响大的不可估算。所所以,针对GIS时态数据的特点,本文设计了时态数据挖掘及分析框架结构(见图3-1),并归纳其挖掘过程如下:①数据对象的选择:根据实际分析目的,选择分析范围及领域,确定被分析数据。②数据预处理:主要是选择的数据进行再加工,检查数据的准确性、完整性及一致性,删除噪音数据,对丢失的数据利用统计方法进行填补。③数据压缩:对经过预处理的数据,根据知识发现的任务对数据进行再处理
8、,精化数据,优化结构。④数据挖掘:采用合适的知识发现算法提取用户关心的数据。⑤数据解释:对第④步得到的数据进行归纳整理,且在必要的时候对上述步骤进行重复操作,以保证数据的有效性。⑥数据分析:从上述步骤最终形成的大量数据中提取可理解的模式,寻找规律,发现新知识等,进而实现进一步的决策分析。聚类方法分类方法关联规则其它空间数据挖掘方法归纳方法分析数据处理后数据发
此文档下载收益归作者所有