多类类别不平衡学习研究

多类类别不平衡学习研究

ID:33577742

大小:1.98 MB

页数:57页

时间:2019-02-27

多类类别不平衡学习研究_第1页
多类类别不平衡学习研究_第2页
多类类别不平衡学习研究_第3页
多类类别不平衡学习研究_第4页
多类类别不平衡学习研究_第5页
资源描述:

《多类类别不平衡学习研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、隶劫大·誓硕士学位论文万方数据多类类别不平衡学习研究万方数据STUDYONMUIJI—CLASIMBALANCELEARNn町GADissertationSubmittedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYLIQian—qianSupervisedbyAssistantProfessorLiuXu-YingandProfessorLiBixinSchoolofComputerScienceandEngineeringSoutheastUniversityApril2

2、014万方数据东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:垄建赁日期:东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文

3、的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括以电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电子信息形式刊登)授权东南大学研究生院办理。~虢跹翮始谊蛔万方数据摘要类别不平衡问题是指各个类别的样本数差异明显,某些类别样本数远远小于其他类别,小类别是关注的重点。但标准分类算法假设所有样本的重要性相同,以最大化正确率为同标,往往忽略小类样本。以往的大多数研究针对两类类别不平衡问题并取得了显著成果,但现实世界巾多类类别不平衡问题普遍存在,与两类类别不平衡问题相比,数据分布更加多样化,概念复杂度更高,因此而

4、临更大的挑战。f1前,多类类别不平衡学习正在成为领域的研究热点。本文针对多类类别不平衡问题进行研究,主要取得了以下成采:(1)分析了多类类别不平衡问题的嗣难,讨论了多类类别不平衡学习的性能评价准则,研究发现Macro-averagedF—measure值相比于多类的G.mean和MAUC更关注大类样本,冈此在多类问题rfl需谨慎使用;对多类类别不平衡学习算法进行了综述;(2)为了避免随机下采样算法忽略潜在有用的大类样本信息的缺点,提出了基于集成学习的EasyEnsemble.M算法。利用对大类的多次独立随机采样获取更多的大类信息,并结合集成学习提高了分类器的

5、性能:(3)在EasyEnsemble.M算法的基础上,为了更加充分利用大类样本信息提出了ChunkCombine算法。该算法采用无放『亓I的随机采样获得多个不重复的大类样本子集,与EasyEnsemble.M算法卡丌比涵盖了更多的大类信息,而且不同数据块的组合提高了集成学习中的弱分类器的多样性,进一步提高了泛化性能。本文共五章。第一章介绍本文工作的研究背景,包括类别不平衡问题介绍,两类类别不平衡学习简介。第二章针对多类类别不平衡问题,分析了困难本质,介绍并讨论了性能评价准则,总结了以往的学习算法。第三章提出了多类类别不平衡学习算法EasyEnsemble.

6、M和ChunkCombine。第四章进行了实验比较。第五章是论文工作的总结与展望。关键词:类别不平衡,多类,MAUC,F—measure,G—meanV万方数据ABSTRACTABSTRACTClass-imbalanceproblemisthatsomeclasseshavemuchmoreexamplesthantheotherclasses,andtheminorityclassesaremoreimportant.Butstandardclassificationmethodsoftenoverlooktheminorityclassexamples

7、becasuseofassumingthattheimportanceofallclassesissameandmakingaccuracyaslearningtarget.Mostoftheresearchinclass—imbalancelearningfocusonbinaryclassificationandachieveremarkableresults.Multi-classimbalanceproblemispervasiveinrealworldapplications.Whentherearemultipleclasses,concepts

8、aremorecomplexanddatadistr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。