面向高维不平衡数据的随机森林算法及其并行化研究

面向高维不平衡数据的随机森林算法及其并行化研究

ID:35102363

大小:6.25 MB

页数:68页

时间:2019-03-17

面向高维不平衡数据的随机森林算法及其并行化研究_第1页
面向高维不平衡数据的随机森林算法及其并行化研究_第2页
面向高维不平衡数据的随机森林算法及其并行化研究_第3页
面向高维不平衡数据的随机森林算法及其并行化研究_第4页
面向高维不平衡数据的随机森林算法及其并行化研究_第5页
资源描述:

《面向高维不平衡数据的随机森林算法及其并行化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:学校代码:10140密级,4031331980;公开学号@座專乂净LIAONINGUNIVERSITY硕±学位论文THESISFORMASTERDEGREE面向高维不平衡数的随机森林算法及其并行化研究论文题目:TheResearchonRandomForestandItsParallelizationOden化d-toUnbalancedHihdimensionalData英文题目.g论文作者:王雪冯勇教授指导教师:计算机应用技术专二〇—完成时间.六年五

2、月申请辽宁大学硕±学位论文面向高维不平衡数据的随机森林算法及其并行化研究The民esearchon民andomForestandItSParallelizationOr-ientedtoUnbalancedHighdimensionalData作者:王雪指导教师:冯勇教授专业:计算机应用技术日2016日答辩期:年5月3日二〇-六年五月.中国辽宁辽宁大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下独立完。成的论文中取得的研究成果除加W标注的内容外

3、,不包含其他个人或集体己经发表或撰写过的研究成果,不包含本人为获得其他学位而使用过的成果。对本文的研究做出重要贡献的个人和集体均已在文中。进行了标注,并表示谢意本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:亦奏年月今日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交学位论文的原件、复印件。和电子版,允许学位论文被查阅和借阅本人授权迁宁大学可W将本学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存和汇

4、编学位论文。同时授权中国学术期刊(光盘版)电子杂志社将本学位论文收录到《中国博±学位论文全文数据库》和《中国优秀硕±学位论文全文数据库》并通过网络向社会公众提供信息服务。学校须按照授权对学位论文进行管理,不得超越授权对学位论文进行任意处理。。(:保密(),在年后解密适用本授权书保密请在括号_"内划V):授权人签名^秦指导教师签名:>4^;*日期:>(《年^月3日日期:年^月日摘要一种集成类数据挖掘算法随机森林算法属于,主要用于解决分类问题。随一机森林算法中的基分类器是由决策树实现,多棵决策树的组合完

5、成个随机森林的构建,。随机森林算法与单分类器相比具有更好的分类准确度和更小的泛化误差,因此,随机森林算法己经作为解决分类问题的重要方法,被广泛地应用到现实生活和工业生产中,,。然而当处理离维不平衡数据时随机森林算法会出现分类准确度低、泛化误差大等问题。目前,针对高维不平衡数据的随机森林算法的研究尚未多见,本文在分析了不平衡数据分类算法和高维数据分类算法的基础上,对面向高维不平衡数据的随机森林算法及其并行化实现进行了研究。针对数据平衡化处理方面的不足,,经过对数据分布情况分析本文通过借鉴数据层面的平衡化算法的思想,提出了一种欠

6、抽样和过抽样相结合的高维不平衡数据的平衡化处理方法。针对传统随机森林处理高维数据时出现分类准确率低的问题,本文对传统随机森林算法一中特征子空间的生成过程进行了改进,提出了种面向离维数据的随机森林算法。随机森林算法中决策树的独立训练过程和独立投票过程决定了随机森林算法有很好的并行化潜力。Spark平台是现在比较流行的分布式计算平台,能够W内存迭代的方式对算法进行并行化实现,面对海量的数据,集。在大数据时代中式算法的处理方式越来越难W满足数据高效处理的需求,本文基于Spark平台对面向高维数据的随机森林算法进行并行化实现,提高算法运

7、行的效率。一本文主要由W下四个部分组成:是对本文所涉及到的文献和分布式平台一技术进行整理和学习,二是针对高维不平衡数据提出种高维不平衡数据的平一衡化处理方法,H是针对高维数据分类问题提出种面向高维数据的随机森林算法,最后通过实验对提出的算法W及并行后的算法性能进行测试和评估,给出总结和展望。关键词:随机森林,高维,不平衡,特征子空间,Spark平台IAbstractABSTRACTRandomForestAlorithmbelonstoakindofinterateddatamininalorithmg

8、gggg,used-and

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。