随机森林算法处理不平衡数据的改进及其并行化

随机森林算法处理不平衡数据的改进及其并行化

ID:35101379

大小:4.60 MB

页数:49页

时间:2019-03-17

随机森林算法处理不平衡数据的改进及其并行化_第1页
随机森林算法处理不平衡数据的改进及其并行化_第2页
随机森林算法处理不平衡数据的改进及其并行化_第3页
随机森林算法处理不平衡数据的改进及其并行化_第4页
随机森林算法处理不平衡数据的改进及其并行化_第5页
资源描述:

《随机森林算法处理不平衡数据的改进及其并行化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广东工业大学硕±学位论文(理学硕±)随机森林算法处理不平衡数据的改进及其并行化钟龙申二〇—六年六月分类号:学校代号:11845UDC;密级:学号:2111314007广东工业大学硕±学位论文(理学硕:±r)随机森林算法处理不平衡数据的改进及其并行化钟龙申指导教师姓名、职称:高学军副教授学科(专业)或领域名称:数学学生所属学院:应用数学学院1论文答辩日期:2016年6月日;oGuandonUniversitofTechno

2、loADissertationSubmitedtggygyfortheDegreeofMaster(MasterofScience)RandomForestImprovedProcessingofUnbalancedDataandItsPa巧llelizationCandidate:ZhongLongshenrrssocaeofGaoXueunSupeviso:AitPr.jJune20化SchoolofApp

3、liedMathematicsGuangdongUniversityofTechnologyGuangzhou,Guangdong,P.R.China,510006摘要摘要一随机森林取andomForest)是用随机的方式建立个森林,森林里面有很多的决策树一一沮成,随机森林的每棵决策树之间是没有关联的.每棵决策树的建立,采用的是随机有放回采样的过程,然后使用投票的形式进行分类和预测.该算法很好的解决了单分一.些有待完善类器在性能上的瓶颈,因此被广

4、泛应用在很多方面当然,该算法也存在一的地方,针对随机森林算法在处理不平衡数据集时运行效率低下的问题,本文提出种新的处理不平衡问题的方法,同时随着计算量呈现指数值的增长,如何提高预测速度和缩短运行时间,本文根据随机森林算法在构建过程中的特点提出了并行化的思想.本文在详细参考国内外文献的基础上,主要从两个方面对随机森林进行优化.一一、对,种新的数据预处理方法数据预处理的研巧提出.针对随机森林算法在处理不平衡数据集方面的缺点和SMOTE算法在选取样本时一-存在定的盲目性和容易边缘化的

5、问题,本文结合Kmeans算法,在SMOTE算法的基一-础上,提出种KSMOTE算法.KSMOTE的主要思想是首先利用Kmeans方法找出原__""、点,再根据SMOTE得出始负类的中屯新增负类,将原始数据集中的负类全部替换为"""新増负类,再次利用SMOTE得出新数据集实验结果表明该方法在随机森林算法上分类性能得到提升.二、基于Mapreduce框架的随机森林算法并行化研巧,随着现代社会数据量呈指数増长,运用随机森林算法进行分类,不但需要花费大量的时间,而且分类性能也低下

6、.在此背景下,本文根据随机森林构建单棵决策树互相独立的特点,同时结合Hadoop平台的分布式框架Mapreduce思想,提出将随机森林算法基于MareduceMreduce框架的主要思想是分而治之,p框架并行研究.巧将复杂的问题分解成若干个相同的子问题,相应的解决子问题就容易很多.具体到随机森林算法中,分而治之主要体现在,构建单棵决策树的过程的并行化处理,然后将组合构建好的多棵决策树进行投票.实验结果表明并行化的随机森林在时间和效率上都得到改善.关键词:;随机森林;非平衡数据;

7、并行化研巧节点分裂1广东工业大学巧壬学位论文ABSTRACT民andomforestisi打泣randomwaytobuild泣forest,theforestiscomposedofmanydecisiontreesdecisiontreeisnotassociated.Everdecisiontreeestablishmentandisin,yrandomsampHngproc的s,andthenuseth

8、eformofvotingforclassificatio打andprediction.Thealgorithmsolvethesi打gleclassifierintheperformancebotleneck,soitiswidelyusedts.couttstmanobettsartinmanyaspecOfrsehealgorihmaloexisyrlmshe,hiicle

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。