分类算法在内蒙古沙尘暴预测中的应用研究

分类算法在内蒙古沙尘暴预测中的应用研究

ID:34582243

大小:1.87 MB

页数:67页

时间:2019-03-08

分类算法在内蒙古沙尘暴预测中的应用研究_第1页
分类算法在内蒙古沙尘暴预测中的应用研究_第2页
分类算法在内蒙古沙尘暴预测中的应用研究_第3页
分类算法在内蒙古沙尘暴预测中的应用研究_第4页
分类算法在内蒙古沙尘暴预测中的应用研究_第5页
资源描述:

《分类算法在内蒙古沙尘暴预测中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:学校代码:10128UDC:学号:20151800055硕士学位论文学生类别:全日制专业型硕士研究生学位类别:工程硕士领域名称:计算机技术论文题目:分类算法在内蒙古沙尘暴预测中的应用研究英文题目:ApplicationofclassificationalgorithminpredictionofSandstorminInnerMongolia学生姓名:赵学哲导师姓名:仁庆道尔吉副教授王英高级工程师二○一八年六月内蒙古工业大学硕士学位论文摘要随着信息化的发展,大数据时代的来临,全球信息数据量的迅猛增长成为大数据产业发展的基础。市场调研机构IDC预计,未来全球数

2、据总量将会一直维持在一个较高的水平,而我国作为信息化产业大国,数据信息来自于各行各业。其中气象部门每天都会收到大量的数据资料。如何从海量数据中提取有用的信息,并为我们创造价值,已经成为一个关键的问题。因此,如何利用气象数据通过数据挖掘技术建立高效的沙尘暴预测模型已成为各国学者们的研究重点。本文研究课题是分类算法在内蒙古气象数据挖掘中的应用研究,在近50年的中国地面气候资料日值数据集与中国强沙尘暴序列及其支撑数据集中筛选出内蒙古地区的气象数据。以此为研究对象。首先,为了解决海量数据的存储与批处理问题,搭建了Hadoop分布式平台与数据仓库平台hive。以HDFS为底层

3、存储,通过编写HQL语句操作海量数据,从而在Hadoop平台完成数据预处理工作。然后根据属性值的缺失率与属性间的相关性,对预处理后的数据集进行降维并得到实验数据集。通过分析沙尘暴发生的频率,结合过采样与下采样方法对实验数据集做了一定的调整,也便于进行下一步分类模型的建立。本文针对沙尘暴数据集采用了目前被广泛使用的BP神经网络算法、SVM支持向量机算法、朴素贝叶斯算法建立分类预测模型。并对各个算法的预测准确率与可伸缩性进行分析和比较。最后,针对更适用于大规模数据集的朴素贝叶斯分类算法,结合属性重要度与Adaboost算法框架,从属性的独立性条件与分类决策两方面优化传统

4、的朴素贝叶斯算法。提出了加权Adaboost-NBC分类方法。实验证明,改进后的算法相比于传统的单一分类器在性能上有一定的提高。关键词:数据挖掘;气象数据;沙尘暴预测;分类算法;Hadoop;AdaboostI内蒙古工业大学硕士学位论文AbstractWiththedevelopmentofinformationtechnologyandthecomingoftheeraofbigdata,therapidgrowthofglobalinformationdatahasbecomethefoundationforthedevelopmentofbigdataindu

5、stries.IDC,amarketresearchagency,predictsthatthetotalglobaldatawillremainatahighlevelinthefuture,whileChinaisaninformationindustrycountrywithdatainformationfromallwalksoflife.ThemeteorologicaldepartmentinChinareceivesalotofdataeveryday.Howtoextractusefulinformationfrommassivedataandcre

6、atevalueforushasbecomeakeyissue.Therefore,howtousemeteorologicaldatatoestablishefficientpredictionmodelsofsandstormthroughdataminingtechnologyhasbecomethefocusofscholarsinvariouscountries.TheresearchtopicistheapplicationofclassificationalgorithminInnerMongoliameteorologicaldatamining.I

7、nrecent50years,themeteorologicaldataofChina'sgroundclimatedatadailydatasetandtheChinesestrongsandstormsequenceanditssupportdatasetarescreenedoutinInnerMongoliaarea.Thisistheresearchobject.Firstofall,inordertosolvetheproblemofmassivedatastorageandbatchprocessing,Hadoopdistributedplatf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。