欢迎来到天天文库
浏览记录
ID:35101947
大小:3.01 MB
页数:70页
时间:2019-03-17
《面向不平衡数据集分类的层次引力模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、面向不平衡数据集分类的层次引力模型研究重庆大学硕士学位论文(学术学位)学生姓名:董振波指导教师:古平副教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一六年四月ResearchonHierarchicalGravityModelforClassificationofImbalancedDatasetsAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngin
2、eeringByDongZhenboSupervisedbyAssociateProfessorGuPingSpecialty:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2016中文摘要摘要分类是数据挖掘和机器学习领域的一个热点问题,传统的分类问题主要关注数据分布平衡的情况,但是在实际应用当中数据不平衡的情况时有发生。数据的不平衡给分类直接或间接地带来了很多困难,传统的方法
3、在对不平衡数据集进行分类时往往变得不再适用。由于不平衡数据集分类问题的挑战性和在现实中的广泛应用,吸引了越来越多的人对其进行研究。目前对不平衡数据集分类的解决方法主要分三种:问题定义层的解决方法、数据层的解决方法和算法层的解决方法。在对不平衡数据集分类中的主要问题进行分析后,该文介绍了两种传统的分类方法,即层次分类模型和数据引力模型,并分析了将它们用于不平衡数据集分类的可行性:将两者结合可以同时降低类间不平衡和小析取项对分类影响。然后在此基础上对两者进行了修改,提出了一种用于不平衡数据集分类的层次引力模型,即H
4、DGC。本文的主要工作如下:1.将层次分类模型和数据引力模型相结合,在吸纳两者优点的同时使两者弥补了彼此的不足,即层次分类模型精确分类能力的不足和数据引力模型分类代价较高的问题。2.改变了传统层次分类模型中采用新生成样本代替原始样本的做法,将划分后位于同一区域的样本看作一个数据单元,根据数据单元距离边界的远近对其进行不同标记,并使用标记结果辅助分类。3.采用了局部引力和全局引力相结合进行分类的方法。局部引力只采用相邻的训练样本对测试样本进行分类,在有足够信息的情况下提高了分类的效率,而使用全局引力则可以利用尽可
5、能多的信息对难分样本进行分类。为了验证HDGC算法的有效性,分别在实际数据集和人工数据集上进行了实验,实验结果表明该方法能够很好的处理不平衡数据集的分类问题,同时具有较高的分类效率。关键词:不平衡数据集分类;层次分类模型;数据引力模型;小析取项I英文摘要ABSTRACTClassificationisatopicalissueinthefieldofdataminingandmachinelearning,andtraditionalclassificationproblemismainlyconcerneda
6、boutdatasetswithbalanceddistributions.Butinpracticalapplications,datasetimbalanceoccursfrequently.Theimbalanceofdatasetbringsalotofdifficultiestoclassification,directlyorindirectly.Traditionalmethodsbecomenolongersuitablewhenitcomestotheclassificationofimbal
7、anceddatasets.Duetothechallengeofimbalanceddatasetclassificationanditswideapplicationsinreality,moreandmorepeopleareattractedtostudyonit.Atpresentstage,therearemainlythreekindsofsolutionstotheproblem:problemdefinitionlayersolutions,datalayersolutionsandalgor
8、ithmlayersolutions.Afteranalyzingthemainproblemsinimbalanceddatasetclassification,twokindsoftraditionalclassificationmethods,namelyhierarchicalclassificationmodelanddatagravitationmodel,wereintr
此文档下载收益归作者所有