欢迎来到天天文库
浏览记录
ID:35186479
大小:2.86 MB
页数:50页
时间:2019-03-21
《综合过采样和欠采样的不平衡数据集的学习研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、的学习研究硕士学位论文基于改进投影法的车牌定位算法的研究与实现(学术学位)综合过采样和欠采样的不平衡数据集的学习研究COMPREHENSIVEOVERSAMPLINGANDUNDERSAMPLINGSTUDYOFIMBALANCEDDATASETS东北电力大学硕士学位论文闫欣2016年3月中图分类号:TP311学校代码:10188UDC:密级:公开综合过采样和欠采样的不平衡数据集的学习研究硕士研究生:闫欣导师:杨杰明教授学位类别:工学硕士学科专业:计算机科学与技术所在单位:信息工程学院答辩日期:2016年3月授予学位单位:东北电力大学Clas
2、sifiedIndex:TP311U.D.C:COMPREHENSIVEOVERSAMPLINGANDUNDERSAMPLINGSTUDYOFIMBALANCEDDATASETSCandidate:YanXinSupervisor:Prof.YangJiemingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofInformationEngineeringDateofDefence:Mar
3、.2016Degree-Conferring-Institution:NortheastDianliUniversity《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》投稿声明《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》投稿声明东北电力大学;本人同意《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托东北电力大学向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕±学位论文全文数据库》和中国科技信息研究所的《中国学位论文全文数据库
4、》投稿,希望《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》给予出版,并同意在《中国优秀博硕:t学位论文全文数据库》和CNKI系列数据库化及《中国学位论文全文数据库》中使用,同意按章程规定享受相关权益。论文级别:□博±作者签名:向指导教师签名:矣4肩於-日期:年令月日j东北电力大学硕±学位论文东北电力大学学位论文原创性声明和使用权限学位论文原创性声明本人郑重声明:此处所提交的学位论文《综合欠采样和过采样的不平衡数据集的学习研究》,是本人在导师指导下,在东北电力大学攻读学位期间独立进
5、行研究工作所取得的成果,且学位论文中除已标注引用文献的部分外不包含他人完成或已发表的研究成果。对本学位论文的研究王作做出重要贡献的个人和集体,均己在文中W明、确方式注明。作者签名:/考阿^曰期:年今月曰tW4学位论文使用权限学位论文是研究生在东北电力大学攻读学位期间完成的成果,知识产权归属东北电力大学。学位论文的使用权限如下:(1)学校可采用影印、缩印或其他复制手段保存研究生上交的学位论文,并向国家图书馆报送学位论文;(2)学校可W将学位论文部分或全部内容编入有关数据库进行检索和提供相应阅览服务;(3)一
6、署研巧生毕业后发表与此学位论文研究成果相关的学术论文和其他成果时,应征得导师同意,且第名单位为东北电力大学。保密论文在保密期内遵守有关保密规定,解密后适用于此使用权限规定。本人知悉学位论文的使用权限,并将遵守有关规定。作者签名;/於日期:>/知知/曰导师签名:方备史日期;扣//年户月片日摘要摘要不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类精度受到特别大的影响。本课题在对不平衡数据的特殊性的研究基础上
7、,结合实际数据集中数据分布特性和数据各个属性的在分类过程中的作用,对目前常用于不平衡数据的重采样方法进行改进,有效的解决存在于传统方法中的不足,得到了新的重采样方法。为了确保对少数类的识别性能,对集成分类器进行相应的改进,最终得到一个针对不平衡数据集的完整的分类学习系统。首先,本课题提出了一种针对不平衡数据集的基于数据密度分布的欠采样方法。该算法引入数据密度的概念,并以此将多数类数据划分为高密度数据簇和低密度数据簇,针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集进行验证,选取C4.5、SV
8、M作为分类器,将该方法与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。其
此文档下载收益归作者所有