欢迎来到天天文库
浏览记录
ID:53033766
大小:1.99 MB
页数:10页
时间:2020-04-14
《数据挖掘在四川降水数据中的应用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第15卷第l期西部教育研究Vo1.15.No.12015年3月WestChinaEducationResearchMar..2015数据挖掘在四川降水数据中的应用梁宗华【摘要】随着我国气象信息化事业的不断发展,气象领域积累了大量的数据。这些数据背后隐藏着许多重要的信息.如何充分利用这些数据并从中发现有价值信息,已成为科研人员的一项重要任务。气象数据的研究与分析对于生产实践与社会生活具有越来越重要的意义。通过利用数据清理、数据变换、异常诊断、可视化技术、K-Means聚类、时间序列模型中季节指数水平法等数据挖掘技术,来对2006~2011年四川地区各主要城
2、市的降水数据进行预处理和分析.最终得出四川地区降水的时空分布特征和旱涝分布情况,以及预测出四川地区未来的降水变化趋势。【关键词】数据挖掘;降水;异常诊断;K—Means聚类【作者简介】梁宗华,内'2r-师范学院经济与管理学院2010级学生。一四川地区降水的空间分布情况。、数据挖掘概述(一)数据挖掘定义所谓时间序列预测,就是用反映被预测事物数据挖掘,是从大量的、不完全的、有噪声过去和现在变化规律的观测数据构造时间序列模的、模糊的、随机的实际应用数据中,提取隐含型,然后借助模型进行外推以预测未来。时间序在其中的、人们事先不知道的、但又是潜在有用列预测模型主要
3、包括移动平均预测模型、指数平的信息和知识的过程。⋯目前对于数据挖掘技术的滑预测模型和季节指数预测模型。季节指数预测应用很多,并且已在许多领域中应用,其应用范法是指变量在一年内以季节或月份为周期特征,围涉及金融、电信、保险、交通、医学、天文、通过计算变量的季节指数达到预测目的的一种方气象等诸多领域。法。根据四川地区降水的季节性特点,本文采用(二)数据挖掘方法季节指数预测模型来分析四川地区降水的时间分目前数据挖掘方法主要有决策树方法、时间布特征和趋势。序列模型方法、神经网络法、异常点诊断方法、在数据源中时常含有少量的数据对象,它们关联分析方法、聚类分析、可视
4、化技术等方法。与数据的一般特征不一致,这些数据对象叫做异本文主要采用数据可视化、聚类分析、异常诊断、常点fOutlier),也叫做孤立点。l5异常点的分析是时间序列模型等方法来分析和处理四川地区最近一种非常重要的数据挖掘类型,被称之为异常点几年的降水数据。挖掘。利用异常诊断方法诊断所搜集整理的降水数据可视化是用直观的图形方式对不直观的数据是否有异常记录,通过剔除这些异常记录可数据进行描述,数据可视化大大增强了数据的表以为数据挖掘提供更可靠的数据源。达能力,从而有利于发现数据中的隐含信息。l2利(三)数据挖掘工具用可视化数据挖掘方法,对收集来的四川地区的现
5、在市场上已经出现许多种数据挖掘工具,降水数据进行图形分析,可以从总体上分析出四如SAS公司的EnterpriseMiner、IBM公司的In—川地区降水的时空分布特征。telligentMiner、SPSS公司的Clementine等数据挖聚类分析又叫做群分析,是按照“物以类聚”掘软件。本文主要利用Clementine数据挖掘软件的道理,对样本进行分类的一种多元统计分析方来进行数据建模分析。这种数据挖掘工具提供了法。通过聚类。可以在没有任何模式可供参考情最出色、最广泛的数据挖掘技术,执行效率高,况下,将大量数据样本按各自的特性来进行合理灵活性好。在进行数
6、据挖掘前,首先要对数据源的分类。口俐用k均值(K—Means1聚类算法来对四进行分析和预处理.这样可以使数据更加符合建川地区的降水数据进行空间聚类分析,可以得出模要求,分析的结果更加准确。·124·西部教育研究第l5卷二、数据源说明与数据预处理现在对异常点的诊断方法很多。每种方法都(一)数据源说明与分析有其不同的适用情形。这里主要采用多维空间基本文所采用的降水数据来源于2006—2011年于聚类的诊断方法,即Clementine数据挖掘软件《四JlI统计年鉴》。这些降水数据包含了2006~2011中的异常诊断方法。聚类分析是用来发现数据集年四川省21个城
7、市各月的降水数据。通过利用这中强相关联的对象组,而异常点检测是发现不与些数据来分析四川地区近几年的降水特征和旱涝其它对象组强关联的对象。E6因此,异常点分析与情况.从而达到为四川l地区的社会生产活动和水聚类是两个相互对立的过程。多维空间基于聚类旱灾害的预防提供信息参考的目的。的诊断方法是从综合分析的角度.通过聚类和计通过对数据源的初步分析.发现数据源中的算样本点与数据群组之间的距离来进行判断,最数据存在以下问题:第一,存在数据缺失的情况,终实现异常点的诊断及其成因的分析。离群点的如西昌市2006年1月份的数据缺失;第二,存在分析包括三个阶段:第一阶段,聚
8、类,即根据数据冗余的情况,每年的降水数据结构基本相同,“亲疏程度”将四川地区21
此文档下载收益归作者所有