欢迎来到天天文库
浏览记录
ID:37067192
大小:1.19 MB
页数:45页
时间:2019-05-16
《基于快速文本分类器与不平衡数据的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、暨南大学硕士学位论文摘要数据不平衡问题一直是统计、机器学习以及计算机科学等领域的重点研究课题。如果直接应用基于平衡数据的统计方法由于没有考虑到数据的不平衡性而导致模型性能较差。许多学者都对这一问题进行了深入的研究,并取得了显著的成果。FastText算法在文本分类中有着广泛的应用。该算法是文本分类的单层神经网络,可以快速且准确的对于平衡数据进行分类,但对于不平衡数据的处理能力有所不足。为了解决这个问题,本文通过采用不等比例的欠采样方式来训练单一的FastText分类器,再通过Bootstrap组合多个弱分类器,这样可以充分利用多数类的数据信息,达到提升分类器性能的目标。将本文提出的方法应用到文
2、本情感分类的实际场景中,对于不平衡的情感数据可以训练出拟合程度更高的模型,有效的提高情感分类的准确率、召回率以及F-score。关键词:文本分类;不平衡数据;快速文本分类;欠采样;自助法;不等比例I暨南大学硕士学位论文AbstractTheproblemofunbalancedatahasbeenamajorresearchtopicinthefieldsofstatistics,machinelearning,andcomputerscience.Ifapplystatisticalmethodsdirectlybasedonbalanceddatawithignoringtheunbala
3、ncedata,theperformanceofmodelresultispoor.Manyscholarshaveconductedin-depthresearchonthisissueandachievedremarkableresults.FastTextalgorithmhasawiderangeofapplicationsintextclassification.Thealgorithmisasingle-layerneuralnetworkfortextclassification.Itcanquicklyandaccuratelyclassifythebalancedata,bu
4、tithasinsufficientcapacityforprocessingunbalanceddata.Inordertosolvethisproblem,thispaperadoptsunequalproportionofundersamplingtotrainasingleFastTextclassifier,andthencombinesseveralweakclassifiersthroughBootstrap.Thiscanmakefulluseofthemajorityofdatainformationandachievethegoalofimprovingclassifier
5、performance.Applyingthemethodproposedinthispapertotheactualsceneoftextsentimentclassification,amodelwithahigherdegreeoffitcanbetrainedforunbalancedsentimentdata,whichcaneffectivelyimprovetheaccuracy,recallrateandF-scoreofsentimentclassification.Keywords:Textclassification;Unbalanceddata;FastText;Und
6、ersampling;Bootstrap;UnproportionalII暨南大学硕士学位论文目录1.绪论..........................................................................................................................11.1研究背景.........................................................................................................11.2研究目的与意义.
7、............................................................................................11.3不平衡分类问题国内外研究成果.................................................................31.3.1数据采样的方法............
此文档下载收益归作者所有