资源描述:
《机器学习方法和统计建模方法的预测比较研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级UDC编号硕士研究生学位论文论文题目:机器学习方法和统计建模方法的预测比较研究ComparativeStudyontheMachineLearningPredictionMethodsandtheStatisticalModelingPredictionMethods学院数学学院专业名称概率论与数理统计研究生姓名李红梅学号13070103002导师姓名王涛职称副教授2016年5月26日独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果.尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已
2、经发表或撰写过的研究成果.对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明.本人完全意识到本声明的法律结果由本人承担.学位论文作者签名:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅.本人授权云南师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文.学位论文作者签名:指导教师签名:年月日年月日摘要摘要本文旨在用近年较经典流行的三种机器学习算法:随机森林,
3、神经网络,mboost与统计建模方法对多元时间序列数据(气温数据)、纵向数据(帕金森病数据)、多重共线性数据(糖尿病数据)做预测对比.针对世界16个城市的最低温度和最高温度为变量的多元时间序列数据,运用VARX模型预测和四种主要的针对横截面数据的机器学习算法做预测比较,并作出对比分析,结果表明无论是在长期预测还是短期预测,VARX模型的预测效果大都不如这些机器学习算法中的一些模型.对于对各个变量中选择出来的不同因变量,预测结果最优的模型也不同.被预测的时间区间越短(相应的训练集越大),则VARX模型预测的效果越好,这说明专门为时间序列设计的方法在该
4、数据上的预测不如为横截面数据设计的机器学习算法,因而在做多元时间序列预测的时候,必须根据数据和变量的各种实际情况来选择最优的预测模型.对一个帕金森病的纵向数据和一个糖尿病的横截面数据做了机器学习方法及统计建模方法对预测的比较.关于第一个数据,对于训练集不同的样本量,分别用线性随机效应混合模型和随机森林、mboost、神经网络做了预测,并对比标准化均方误差.发现无论是长期预测还是短期预测,线性随机效应混合模型在该数据上的预测效果都显著不如神经网络.对于第二个数据:具有多重共线性,分别用岭回归,lasso回归,适应性lasso回归,偏最小二乘回归(PL
5、S),逐步回归,线性回归及机器学习算法做十折交叉验证预测对比.结果显示,神经网络在处理此多重共线性数据时远远好于其他的传统统计建模方法,而不那么传统的PLS方法也全面优于其它几种传统方法,但远不如神经网络方法.本文为比较研究的案例库贡献新的、有重要参考价值的比较案例,同时对实际工作者提供有益的参考.本文的所有计算基于R软件.关键词:统计建模方法;随机森林;mboost;神经网络;交叉验证;标准均方误差;IAbstractAbstractThispapermakescomparisonsbetweenthreemachineleaningmethod
6、sandstatisticalmodelingmethodsonmultivariatetimeseriesdataandlongitudinaldataandmulticollinearitydata.Thisstudyinvestigatesthemultivariatetimeseriesdatasetcontainingthehighestandlowesttemperaturesof16citiesaroundtheworld(total32variables)byusingVARXandfiveothermethodsincluding
7、threemachinelearningmethodsforcross-sectiondataandOLSmethodswithRsoftware.ThisstudymainlymakescomparisonsbetweenVARXandtheothermethodsonlong-termtoshort-termforecastingwitheveryvariabletobedependentvariablealternately.Astheoutcome,VARXmethodisinferioringeneraltomostmachinelear
8、ningmethodsexcepttheneuralnetworksformostofthelong-termforeca