基于随机森林的文本分类研究与应用

基于随机森林的文本分类研究与应用

ID:37062784

大小:1.92 MB

页数:74页

时间:2019-05-16

基于随机森林的文本分类研究与应用_第1页
基于随机森林的文本分类研究与应用_第2页
基于随机森林的文本分类研究与应用_第3页
基于随机森林的文本分类研究与应用_第4页
基于随机森林的文本分类研究与应用_第5页
资源描述:

《基于随机森林的文本分类研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工程硕士学位论文基于随机森林的文本分类研究与应用作者姓名张其龙工程领域软件工程校内指导教师张平健教授校外指导教师潘勇高级工程师所在学院软件学院论文提交日期2018年3月ResearchandApplicationinTextClassificationbasedonRandomForestADissertationSubmittedfortheDegreeofMasterCandidate:ZhangQilongSupervisor:Prof.ZhangPingjianSeniorEngineerPanYongSouthChinaUn

2、iversityofTechnologyGuangzhou,China分类号:TP3学校代号:10561学号:201521034974华南理工大学硕士学位论文基于随机森林的文本分类研究与应用作者姓名:张其龙指导教师姓名、职称:张平健教授;潘勇高级工程师申请学位级别:工程硕士工程领域名称:软件工程论文形式:□产品研发□工程设计应用研究□工程/项目管理□调研报告研究方向:软件工程技术论文提交日期:2018年3月14日论文答辩日期:2018年3月19日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:奚建清委员:张平健、

3、陈虎、汤德佑、潘勇华南理工大学摘要随着计算机技术的迅猛发展以及互联网的迅速普及,人类在数字网络上制造了大量的信息数据,信息呈现出爆炸式增长,正进入大数据时代。面对如此庞大的数据人类亟需一种有效地组织管理的方法,并从中进行知识发现挖掘隐含的关联,而文本分类恰恰是解决这些问题的关键部分。随机森林是Breiman在2001年提出的一种集成学习方法,它是一种通过结合多个决策树的方法构建一个集成分类器方法,基本思想是袋装和随机特征子空间方法。相比于其他分类算法,随机森林具有较高分类准确率、克服了过拟合的问题、对噪声和异常值有良好的容忍性并且易并

4、行化等特点。基于这些优点随机森林得到了广泛的应用,并且在文本分类领域得到了不错的效果。然而,传统的随机森林算法无法区别对待分类性能不同的基分类器,这对随机森林算法的分类性能有一定的影响,因为各个基分类器的分类性能参差不齐,如果一视同仁采用同样的权重投票,无法降低分类性能差的基分类器的负面影响,也无法增强分类性能优秀的基分类器的正面影响,最终会导致随机森林整体分类性能的下降。同时,随机森林在面对高维度特征多类别的数据下也会有不佳的表现,在特征子集选取得比较小的同时使用等概率选择特征会对分类性能产生较大的负面影响,在特征子集的大小限定的情

5、况下有区分度的特征更难被选上,导致基分类器的分类强度大大降低,进而影响随机森林的泛化能力。综合以上两个方面,本文提出了基于加权投票和加权特征选择的随机森林算法,具有在投票阶段增强可靠性高的基分类器及降低可靠性低的基分类器对分类结果的影响,又能在特征选择阶段使得具有分类信息的特征有更大的概率被选到分裂候选的特征子集中的特点。经实验证明,本文提出的算法相对于其他随机森林算法和其他常用分类算法具有更好的分类性能,但是缺点是运行时间比较长。关键词:随机森林;文本分类;加权投票;加权特征选择;高维特征IAbstractWiththerapidd

6、evelopmentofcomputertechnologyandtherapidpopularizationoftheInternet,peoplehascreatedalargeamountofinformationanddataonthedigitalnetwork.Theinformationhasshownanexplosivegrowthandweareenteringtheeraofbigdata.Facedwithsuchahugeamountofdata,peopleurgentlyneedaneffectiveme

7、thodoforganizingandmanagingknowledgediscoveryandminingofimplicitassociations.Textclassificationisjustakeypartofsolvingtheseproblems.RandomforestisanintegratedlearningmethodproposedbyBreimanin2001.Itisanintegratedclassifiermethodbycombiningmultipledecisiontrees.Thebasici

8、deaisthebaggingandrandomsubspacemethod.Comparedwithotherclassificationalgorithms,randomforesthashighclassifica

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。