欢迎来到天天文库
浏览记录
ID:45763623
大小:537.19 KB
页数:43页
时间:2019-11-17
《云计算下基于贝叶斯分类的气象数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第一章引言11.1研究背景及选题意义11.2国内外研究现状综述21.3论文的主要工作31.4论文组织结构4第二章相关技术与理论概述5Hadoop相关技术概述5Hadoop概述5HDFS6MapReduce7Hive概述82.2算法理论概述92.2.1数据约减理论92.2.2朴素贝叶斯分类器10第三章基于Hadoop的气象数据存储方案133.1海量气象数据管理面临的主要问题133.2数据中心层次结构143.3数据中心数据流程153.4气象数据表建立173.5实验结果18第四章Hadoop下气象数据挖掘实现214.1数据预处理214.2基于MapReduce的粗糙集约减算法224.2
2、.1算法思路224.2.2算法具体实现234.3基于MapReduce的NativeBayes分类算法254.3.1算法思路254.3.2算法具体实现264.4算法实例分析29第五章实验方案和结果分析315.1实验环境和数据315.1.1实验环境搭建315.1.2实验数据325.2实验结果与分析33第六章总结和展望376」论文总结376.2工作展望38参考文献39致谢42攻读硕士学位期间发表学术论文情况43第一章引言第一章引言1.1研究背景及选题意义近年来极端天气频发,人们越来越重视对气象天气的研究。利用数据挖掘技术,分析观测到的气象信息资料,发现潜在其中的特点和规律,提供给气象
3、预报员基于数据的预报参考,对于提高天气预报的准确率有重要意义。在将数据挖掘技术应用到气象资料处理的研究过程中,出现了很多实用的方法,如基于SVM(支持向量机)的方法、基于贝叶斯分类的方法等,在处理常规的小量气象数据挖掘方面取得了较好的效果。随着数据库技术和计算机网络的高速发展,气象信息化程度不断提高,可探测的气象要素在不断增多,气象部门在日常的工作中收集和积累了海量的气象数据。据统计,目前自治区共有119个国家地面气象站,500余个自动气象站,信息中心每天都要处理几GB的数据,累积的气象数据更是庞大无比。这些珍贵的气象数据里蕴含着丰富的气象信息和潜在的大气规律,对于从本质上发现各
4、类天气现象出现的原因与规律,进一步完善气象预测有着重要意义。目前这些数据往往只是以报文或者数据库形式存储起來,而得不到充分的利用,且存储成本在不断增加。由于数据量急剧增大,气彖数据挖掘计算规模急剧膨胀,传统的数据存储与挖掘方法在处理海量气彖数据时,在性能与准确率方面均无法获得令人满意的效果。云计算通过互联网建立可以快速释放和分配的共享资源池,实现了一种随时随地、按需分配资源的计算模式,是并行计算、分布式计算和网格计算的发展,集成了虚拟化、公用计算、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念说通过这项技术,用户可以享受和“超级计算机”同样强大的
5、计算服务,而不需要购买高性能的硬件设备。云计算的出现为高效的海量数据的挖掘提供了可能,因此可以将数据挖掘方法与云计算技术相结合解决海量气象数据的挖掘问题,使问题转化为基于云平台的海量气象数据存储与计算的问题。云计算PaaS平台一Hadoop是一个分布式系统基础架构,提供了分布式存储环境和分布式计算模型皿]。它可以部署在廉价的计算机上,充分利用集群高速的运算和高效的存储能力,为用户提供一个可靠的、扩展性强的分布式系统。综上所述,将云计算与气象数据挖掘相结合,充分利用云计算高效的数据存储与计算能力,解决传统数据挖掘算法处理大数据遇到的问题,为气象数据挖掘提供全新的模式,提高天气预报的
6、准确率、预报效率,及时发布预警信息,对内蒙古地区生态环境建设与人民生活都具有实际意义,同时也降低了数据挖掘的成本。1.2国内外研究现状综述数据挖掘是指从实际应用的数据屮发现潜在其屮的有用的规律和知识的过程。随着气象事业信息化水平不断提高,气象部门积累了大量的数据,人们迫切需要管理和利用好这些历史数据,因此数据挖掘技术受到了极大的关注。使用数据挖掘算法分析气象数据,为气象预报提供参考,是目前国内外学者研究和探讨的热点,并取得了一定的成果。解放军理工大学胡邦辉等将贝叶斯分类应用到单站的雷暴预测中,建立了针对漳平、广州和湛江的3个单站的雷暴预报模型,使用历史数据检验了预报准确率,实验表
7、明该预报模型的CSI准确率在72%以上,具有较高的准确率口冥天津大学路志英等针对沙尘暴的预测问题提岀了基于遗传算法的BP神经网络预报模型,在预报准确率与收敛速度方面均取得了较满意的结果〔①;兰州大学陈晓云等深入研究了降雨前后气象要素的变化规律,提出了多维时间序列数据挖掘模型,经实验暴用、中雨、小用的预测置信度均在75%以上,具有较高的实用价值〔叫JurajBartok等将统计学、气象学与数据挖掘技术相结合,建立了通用的气象预测模型,在预报大雾、云量等方面取得了较好的预测效果⑴。云
此文档下载收益归作者所有