基于随机森林的文本分类并行化研究

基于随机森林的文本分类并行化研究

ID:34266097

大小:1.58 MB

页数:57页

时间:2019-03-04

基于随机森林的文本分类并行化研究_第1页
基于随机森林的文本分类并行化研究_第2页
基于随机森林的文本分类并行化研究_第3页
基于随机森林的文本分类并行化研究_第4页
基于随机森林的文本分类并行化研究_第5页
资源描述:

《基于随机森林的文本分类并行化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10530学号201510171864分类号TP311密级公开硕士学位论文基于随机森林的文本分类并行化研究学位申请人彭徵指导教师王灵矫副教授学院名称信息工程学院学科专业电子与通信工程研究方向移动通信二○一八年六月六日ResearchonParallelTextCategorizationofRandomForestCandidatePengZhengSupervisorProf.WangLingjiaoCollegeTheCollegeofInformationEngineeringProgramElectronicandCommunicationEngineeringS

2、pecializationMobileCommunicationDegreeMasterofEngineeringUniversityXiangtanUniversityDate2018-6-6摘要互联网的发展导致了大量的数字媒体信息的产生,除了部分多媒体信息外,大部分内容是由文本文件组成,由于文档大部分类容是非结构化,普通计算机技术很难对其进行有效处理,文本分类是处理这些文本文件重要技术。本文主要研究基于随机森林的文本分类算法,随机森林算法是由决策树构建的组合算法,它的分类性能高,鲁棒性好,不会产生过拟合现象。但传统的随机森林算法也有一些不足之处:首先,随机森林算法对不平衡数据

3、分类效果不理想,少数类的正确率要明显低于多数类。其次,随机森林算法中所有决策树的投票权重是一样的,没有充分发挥性能优秀决策树的作用也没有削弱性能不好的决策树对其影响。然后,随机森林算法在训练过程中需要建立多个分类器,运算时间比较长,一般的运行时间是其它算法运算时间的一倍以上。针对上面的不足,本文对随机森林算法进行了改进:(1)提出了不平衡数据随机森林改进算法,对训练样本的多数类进行欠取样对少数类进行有放回取样,使各样本数达到平衡,在不影响多数类的正确率的情况下提高少数类的分类效果。实验结果表明该算法对于非平衡的文本分类数据源有着良好的效果,使少数类的分类正确率得到明显提高。(2)

4、提出了叶子节点加权随机森林算法,通过每个决策树的投票权重和进行分类。实验表明改进后的随机森林算法的准确率、召回率和F值都比普通随机森林算法、朴素贝叶斯算法、k近邻算法高,表明了本文改进的随机森林算法性能得到了提高。(3)提出使用Spark分布式框架对文本分类过程进行并行化运算,Spark是一个基于内存的用于处理、分析大数据的集群计算框架,它的主要特点有使用方便、快速、通用、可扩展和容错。实验结果表明spark平台上并行化运行文本分类过程的效率要比在单机上的高。关键词:文本分类;随机森林;Spark;并行化;不平衡数据IAbstractThedevelopmentoftheInte

5、rnethasledtotheproductionofalargeamountofdigitalmediainformation.Apartfromsomemultimediainformation,mostofthecontentconsistsoftextfiles.Sincemosttypesofdocumentsareunstructured,itisdifficultforordinarycomputertechnologytohandlethemeffectively.Classificationisanimportanttechniqueforprocessingt

6、hesetextfiles.Thispapermainlystudiesthetextclassificationalgorithmbasedonrandomforest.Randomforestalgorithmisacombinationalgorithmconstructedbydecisiontree.Ithashighclassificationperformance,goodrobustness,andnooverfittingphenomenon.However,thetraditionalrandomforestalgorithmalsohassomeshortc

7、omings:First,therandomforestalgorithmisnotidealforimbalanceddataclassification,andtheaccuracyofafewclassesissignificantlylowerthanthatofmostclasses.Secondly,thevotingweightsofallthedecisiontreesintherandomforestalgorithmarethesame.Theroleofad

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。