基于随机森林的不平衡数据分类算法及其并行化研究

基于随机森林的不平衡数据分类算法及其并行化研究

ID:37045706

大小:1004.16 KB

页数:64页

时间:2019-05-15

基于随机森林的不平衡数据分类算法及其并行化研究_第1页
基于随机森林的不平衡数据分类算法及其并行化研究_第2页
基于随机森林的不平衡数据分类算法及其并行化研究_第3页
基于随机森林的不平衡数据分类算法及其并行化研究_第4页
基于随机森林的不平衡数据分类算法及其并行化研究_第5页
资源描述:

《基于随机森林的不平衡数据分类算法及其并行化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC昆明理工大学硕士学位论文基于随机森林的不平衡数据分类算法及其并行化研究研究生姓名王思晨指导教师姓名、职称丁家满副教授学科专业计算机软件与理论研究方向数据挖掘论文工作起止日期2016年10月~2018年5月论文提交日期2018年5月摘要摘要实际应用领域中不平衡数据无处不在,传统的分类算法为了追求总体的分类性能,通常是基于平衡数据分布或者忽略样本中的少数类样本,从而导致少数类样本分类准确率不理想等问题。因此研究和设计有效解决不平衡数据的分类算法,用于提高对少数类样本的分类准确率和分类器的整体性能,具有重

2、要的理论和现实意义。集成分类器算法处理不平衡数据分类问题,可以在一定范围平衡误差。随机森林分类算法属于集成分类器算法的一种,但是当数据处于严重不平衡时,随机森林的分类效果并不明显。而且当数据集包含噪声和冗余特征时,这样构建的随机森林分类模型将会导致分类效果不理想问题。因此针对不平衡数据分类,设计合理的训练基分类器的方法是非常必要的。另外,随着数据规模增大、加之算法给不平衡数据的预处理以及分类器构建等方面带来运算代价,不平衡数据分类效率成为了必须要考虑的问题。随机森林算法在构建多个相互独立且互不相同的决策树和投票决策

3、两个阶段的处理特点比较符合并行化处理的要求和标准。为此,针对分类算法的执行效率问题,论文采用Spark为计算框架,开展基于随机森林的不平衡分类算法的并行化研究工作。论文在介绍选题的研究背景、意义、基本概念及相关技术的基础上,首先进行了大量文献综述,其次,针对不平衡数据分类面临的样本不平衡、少数类样本分类精度低以及分类效率等瓶颈问题,论文结合Spark高效的数据处理能力,提出了一种Spark环境下基于随机森林的不平衡数据集成分类算法。该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与

4、少数类样本中的训练集组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,采用加权投票方式对随机森林算法进行改进优化并利用其获得子分类器。最后在Spark环境下,以UCI数据集进行实验验证。实验结果表明论文方法不仅提高了整体分类精度,而且提升了分类效率。关键词:分类;不平衡数据;综合权重;随机森林;Spark;并行化IAbstractAbstractImbalanceddataisubiquitousinpracticalapplications.Inordertopursuetheove

5、rallclassificationperformance,thetraditionalclassificationalgorithmsareusuallybasedonbalancingthedistributionofdataorignoringminorityclasssamplesinthesample,whichresultintheproblemthattheclassificationaccuracyofminorityclasssamplesisnotideal.Therefore,itisimpo

6、rtanttheoreticalandpracticalsignificancetostudyanddesignaclassificationalgorithmthatcaneffectivelysolvetheimbalanceddata,whichisusedtoimprovetheclassificationaccuracyofminorityclasssamplesandtheoverallperformanceoftheclassifier.Theintegratedclassifieralgorithm

7、sdealwithimbalanceddataclassificationproblems,whichcanbalanceerrorsoveracertainrange.Andtherandomforestclassificationalgorithmisoneoftheintegratedclassifieralgorithms,butwhenthedataisinseriousimbalance,theclassificationeffectoftherandomforestisnotobvious.Moreo

8、ver,whenthedatasetcontainsmanynoiseandredundantfeatures,Therefore,therandomforestclassificationmodelconstructedusingthesefeatureswillleadtoclassificationeffectisnotidealwhenperform

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。