资源描述:
《空间关联规则挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、空间关联规则挖掘姓名:徐博轩学号:TS13160088学院:环境与测绘学院目录什么是GIS空间关联规则挖掘面向主题的空间关联规则挖掘空间关联规则挖掘发展趋势什么是GIS地理信息系统是一种在计算机软件,硬件支持下,把各种地理信息和环境参数按空间分布或地理坐标,以一定格式输入,存储,检索,显示和综合分析应用的技术系统,是多种学科交叉的产物。GIS基本概念GIS与各学科关系GIS地理学遥感技术制图技术计算机科学软件工程数据库技术计算机图形学CAD专家系统1、理论基础2、为空间分析提供方法1、都是基于地理信息的表达2.Gis的
2、重要数据来源空间数据的主要采集手段,与GIS互补GIS基础分析这些GIS基本分析可以完成地形分析、路网分析、城市规划绿地分析、社会经济分析等。叠加分析缓冲分析距离和密度分析其它二维分析可视化分析地统计分析数据挖掘北京就业密度三维图1996-2004年就业密度变化图案例:北京市就业结构统计分析案例:长三角城市聚类分析按照城市化发展水平(共21个指标)使用聚类分析。空间数据挖掘和知识发现(SDMKD)兴起于20世纪90年代,本质是从空间数据库中提取不明确和隐含的知识、空间关系等,目的是发现、解释或预测空间现象或事件,其中空间
3、关联规则是空间数据挖掘的重要知识内容。空间关联规则(spatialassociationrules)指的是空间实体间相邻、相连、共生和包含等空间关联规则,发现的知识通常用关联规则或频繁项集的形式表示。空间关联规则挖掘如G1∧⋯∧Gm→H1∧⋯∧Hn(s%,c%),令G=G1∧⋯∧Gm为规则前件,H=H1∧⋯∧Hn为规则后件。c%是此规则的可信度如果谓词“G∧H”,在集合S上是频繁的且规则“G→H/S”的可信度较高,则称“G→H/S”为强规则。G在集合S中的支持度S定义为满足G的对象数量与S中对象数量之比,记为б(G/S)
4、。规则G→H在集合S中的可信度定义为б(G∧H/S)与б(G/S)之比,记为φ(G→H/S)。如果G的支持度不低于概念层次第k层的最小支持度阈值б’k,则谓词G在集合S的第k层是频繁的,且G的所有祖先在相应的概念层次上也较频繁。如果可信度不低于相应层的可信度阈值φ’k,则规则”G→H/S”在集合S的第k层较高空间关联规则挖掘(1)空间拓扑关系topologyrelation={disjoin,intersect,adjacentto,cover,coveredby…}(2)空间距离关系确定区域距离是一个复杂的工作,因为要
5、充分考虑空间对象自身的大小在距离度量上的重要性。Distance={close_to,far-away…}(3)方向关系Direction={left,right,north,east,northeast…}例:is_a(X,”housel”)^close_to(X,”beach”)=>is_expensive(X)[85%,90%]空间关系常用算法的数据流程图主要是针对减少搜索频繁项集的次数,以及如何有效地对空间关系进行概化。据此,可将几种改进方法分为:②基于空间复杂性的优化①基于时间复杂性的优化。针对基本关联规则算法
6、的改进时间复杂性主要是搜索计算频繁谓词的次数,有效缩小搜索频繁项的频率,即降低算法的时间复杂度基于规则模板的模型基于模糊逻辑的近似区域表示模型案例预测雷电频发区域中杆塔发生故障的规则。在雷电频发区域中杆塔发生故障有以下情况:(1)由于杆塔被雷击引起跳闸,发生故障;(2)由于杆塔污染严重,发生故障。面向主题的空间关联规则挖掘第一步:对矢量数据图进行数据预处理(空缺数据填充,连续属性数据离散…)第二步:数据库->Task_DB->MBR谓词存贮在空间数据库Coarse_DB中第三步:为Coarse_DB中的每个谓词计算支持度
7、和可信度,过滤形成形成数据库Frequent_coarse_DB。(1)使用最小边界矩形(MBR)结构进行近似空间运算;(2)计算粗略的空间谓词)第四步:采用MRR技术对第三步以后的进行检查,形成Fine_DB.第五步:采用Apriori算法在Fine_DB上抽取强空间关联规则并提取出关联规则。基于多个空间数据层的空间概念关系在给定主题的空间关联规则挖掘中,要全面了解一个主题的有关信息,往往需要多个空间数据层的信息。概念层次图进行数据挖掘的数据表关联规则最小支持率6%和最小置信度75%杆塔的故障率为规则后件,以其余属性为
8、规则前件规则1:距离植被较近∧植被较高∧杆塔雷击频率较高→故障率高规则2:距离植被较近∧植被面积较大∧杆塔雷击频率较高→故障率高规则3:距离道路较近∧车流量大∧杆塔雷击频率较高→故障率高规则4:距离道路较近∧车流量大∧杆塔污染严重→故障率高规则5:距离植被较远∧植被较低∧杆塔雷击频率较低→故障率低规则6:距离植被较远