欢迎来到天天文库
浏览记录
ID:35101379
大小:4.60 MB
页数:49页
时间:2019-03-17
《随机森林算法处理不平衡数据的改进及其并行化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、广东工业大学硕±学位论文(理学硕±)随机森林算法处理不平衡数据的改进及其并行化钟龙申二〇—六年六月分类号:学校代号:11845UDC;密级:学号:2111314007广东工业大学硕±学位论文(理学硕:±r)随机森林算法处理不平衡数据的改进及其并行化钟龙申指导教师姓名、职称:高学军副教授学科(专业)或领域名称:数学学生所属学院:应用数学学院1论文答辩日期:2016年6月日;oGuandonUniversitofTechno
2、loADissertationSubmitedtggygyfortheDegreeofMaster(MasterofScience)RandomForestImprovedProcessingofUnbalancedDataandItsPa巧llelizationCandidate:ZhongLongshenrrssocaeofGaoXueunSupeviso:AitPr.jJune20化SchoolofApp
3、liedMathematicsGuangdongUniversityofTechnologyGuangzhou,Guangdong,P.R.China,510006摘要摘要一随机森林取andomForest)是用随机的方式建立个森林,森林里面有很多的决策树一一沮成,随机森林的每棵决策树之间是没有关联的.每棵决策树的建立,采用的是随机有放回采样的过程,然后使用投票的形式进行分类和预测.该算法很好的解决了单分一.些有待完善类器在性能上的瓶颈,因此被广
4、泛应用在很多方面当然,该算法也存在一的地方,针对随机森林算法在处理不平衡数据集时运行效率低下的问题,本文提出种新的处理不平衡问题的方法,同时随着计算量呈现指数值的增长,如何提高预测速度和缩短运行时间,本文根据随机森林算法在构建过程中的特点提出了并行化的思想.本文在详细参考国内外文献的基础上,主要从两个方面对随机森林进行优化.一一、对,种新的数据预处理方法数据预处理的研巧提出.针对随机森林算法在处理不平衡数据集方面的缺点和SMOTE算法在选取样本时一-存在定的盲目性和容易边缘化的
5、问题,本文结合Kmeans算法,在SMOTE算法的基一-础上,提出种KSMOTE算法.KSMOTE的主要思想是首先利用Kmeans方法找出原__""、点,再根据SMOTE得出始负类的中屯新增负类,将原始数据集中的负类全部替换为"""新増负类,再次利用SMOTE得出新数据集实验结果表明该方法在随机森林算法上分类性能得到提升.二、基于Mapreduce框架的随机森林算法并行化研巧,随着现代社会数据量呈指数増长,运用随机森林算法进行分类,不但需要花费大量的时间,而且分类性能也低下
6、.在此背景下,本文根据随机森林构建单棵决策树互相独立的特点,同时结合Hadoop平台的分布式框架Mapreduce思想,提出将随机森林算法基于MareduceMreduce框架的主要思想是分而治之,p框架并行研究.巧将复杂的问题分解成若干个相同的子问题,相应的解决子问题就容易很多.具体到随机森林算法中,分而治之主要体现在,构建单棵决策树的过程的并行化处理,然后将组合构建好的多棵决策树进行投票.实验结果表明并行化的随机森林在时间和效率上都得到改善.关键词:;随机森林;非平衡数据;
7、并行化研巧节点分裂1广东工业大学巧壬学位论文ABSTRACT民andomforestisi打泣randomwaytobuild泣forest,theforestiscomposedofmanydecisiontreesdecisiontreeisnotassociated.Everdecisiontreeestablishmentandisin,yrandomsampHngproc的s,andthenuseth
8、eformofvotingforclassificatio打andprediction.Thealgorithmsolvethesi打gleclassifierintheperformancebotleneck,soitiswidelyusedts.couttstmanobettsartinmanyaspecOfrsehealgorihmaloexisyrlmshe,hiicle
此文档下载收益归作者所有