欢迎来到天天文库
浏览记录
ID:50045174
大小:5.34 MB
页数:59页
时间:2020-03-04
《基于类别失衡数据集的改进支持向量机模型的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP391单位代码:10361安获化义乂學ANHU.◎IUNIVERSITYOFSCIENCE&TECHNOLOGYQjj六按-1sV论娜目;基于类别失衡数据集的改进支持向量机模型的研究作者姓名:张贝贝专业名称:计算机技术导师姓名:周华平教授完成时间;2〇n年6月6曰P巧:1论文编号中图分类号:T学科分类号.520密级:公开安徽理王大学硕去学位论文基于类别失衡数据集的改进支持向量机模型的研究作者姓名:张贝贝专业名称:计算机技术研究方向:数据挖掘导师姓
2、名:周华平教授导师单位:安徽理工大学答辩委员会主席:承丕检论文答辩日期:年6月日安徽理工大学研究生院2017年6月6日ADissertationinComputerTechnologyResearchonImrovedSuortVectorMachineBasedonpppCategoryImbalancedDatasetCandidate:ZhanBe化eigSupervisor:ZhouHuapingSchoolofComuterScienceandEnineerinpggAnhuiUniv
3、ersitofScienceandTechnoloygyNo.168,TaifengAvenue,Huainan,232001,P.R.CHINA独创性声明本人声明所星交的学位论文是本人在导师指导下进行的巧究工作及LL。据我所知乂标注和致谢的地方乂外,取得的研究成果,除了文中特別加论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得安徽理王大学或其他教育机构的学位或证书而使用过的批料一同。与我工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:泳巧日期;日曲年_^月学位论文版权使用授权书
4、未学位论文作者完全了解安徽理工大学有保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于安徽理工大学。学校有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽理工大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可采用影印、缩印或扫播等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名;绿^扔历签字日期:么0年6月6日导师签名:签字日期:么^7申6月6日安徽理工大学硕击学位论文摘要摘要计算化技术的快速发展,使得数据量迅速地增长。为了利用这些数
5、据来指导当前的工作及科学研巧,基于数据挖掘的应用技术被发掘出来并快速发展。许多一实际研究中一,数据集是类别失衡的,即基于个类别的数据量与属于另类别的数据量差距较大,且小样本量类呈现出的信息通常更具价值,故而类别失衡分类一一个热口问题直是我们研究数据挖掘的。传统的机器学习算法,往往会导致对小样本量类的识則率较低,而致使分类器分类性能大幅度降低。建立于统计学习基础之上的分类方法一支持向量机,具有坚实的理论依据,对于类别非失衡数据集有比其他分类算法更好的分类效果,但对于两类失衡样本。本文鉴于类别失衡数据集分类难的情况分类效果稍有欠缺,结合前人的成果提出了边界修剪
6、支持向量机方法。该方法在尽量不降低分类正确率的同时,提高了对小样本量类样本的识别率;同时也弥补了支持向量机在类别失衡数据集分类中的不足,并从W下方面做出了改进。1.分类边界混叠数据的处理。本文主要是对不同类别的样本的边界进行处理。,由于边界数据对支持向量的重要影响,故而其对分类器的构建也比较重要先前大部分的研究工作主要采用将分类边界混叠数据直接删除或简单地添加到小样本量类中的处理方式,而忽略了边界混臺数据对小样本量类的分类精度的影响。鉴于此,本文对边界海叠数据进行了细致地划分与处理。2.不同类别支持向量数目的修剪。本文根据小样本量类样本量与大样本量类支持向
7、量数目的关系采取相应的处理策略。当小样本量类样本量与大样本量类支持向量数目均衡时,又,通过引入软间瞄来求解最优超平面当两者相差较大时;提供了SMOTE算法或仿主成分分析方法,并根据需要进行择优选取;当小样本量类相对稀少且小样本量类的支持向量与大样本量类的支持向量的数量差距较大时,从小样本量类中抽取样本权重较大者,使其与小样本量类中支持向量数目之和与大样本量类的支持向量数目达到均衡,再进行
此文档下载收益归作者所有