基于类别失衡数据集的改进支持向量机模型的研究.pdf

基于类别失衡数据集的改进支持向量机模型的研究.pdf

ID:50045174

大小:5.34 MB

页数:59页

时间:2020-03-04

基于类别失衡数据集的改进支持向量机模型的研究.pdf_第1页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第2页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第3页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第4页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第5页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第6页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第7页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第8页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第9页
基于类别失衡数据集的改进支持向量机模型的研究.pdf_第10页
资源描述:

《基于类别失衡数据集的改进支持向量机模型的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10361安获化义乂學ANHU.◎IUNIVERSITYOFSCIENCE&TECHNOLOGYQjj六按-1sV论娜目;基于类别失衡数据集的改进支持向量机模型的研究作者姓名:张贝贝专业名称:计算机技术导师姓名:周华平教授完成时间;2〇n年6月6曰P巧:1论文编号中图分类号:T学科分类号.520密级:公开安徽理王大学硕去学位论文基于类别失衡数据集的改进支持向量机模型的研究作者姓名:张贝贝专业名称:计算机技术研究方向:数据挖掘导师姓

2、名:周华平教授导师单位:安徽理工大学答辩委员会主席:承丕检论文答辩日期:年6月日安徽理工大学研究生院2017年6月6日ADissertationinComputerTechnologyResearchonImrovedSuortVectorMachineBasedonpppCategoryImbalancedDatasetCandidate:ZhanBe化eigSupervisor:ZhouHuapingSchoolofComuterScienceandEnineerinpggAnhuiUniv

3、ersitofScienceandTechnoloygyNo.168,TaifengAvenue,Huainan,232001,P.R.CHINA独创性声明本人声明所星交的学位论文是本人在导师指导下进行的巧究工作及LL。据我所知乂标注和致谢的地方乂外,取得的研究成果,除了文中特別加论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得安徽理王大学或其他教育机构的学位或证书而使用过的批料一同。与我工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:泳巧日期;日曲年_^月学位论文版权使用授权书

4、未学位论文作者完全了解安徽理工大学有保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于安徽理工大学。学校有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽理工大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可采用影印、缩印或扫播等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名;绿^扔历签字日期:么0年6月6日导师签名:签字日期:么^7申6月6日安徽理工大学硕击学位论文摘要摘要计算化技术的快速发展,使得数据量迅速地增长。为了利用这些数

5、据来指导当前的工作及科学研巧,基于数据挖掘的应用技术被发掘出来并快速发展。许多一实际研究中一,数据集是类别失衡的,即基于个类别的数据量与属于另类别的数据量差距较大,且小样本量类呈现出的信息通常更具价值,故而类别失衡分类一一个热口问题直是我们研究数据挖掘的。传统的机器学习算法,往往会导致对小样本量类的识則率较低,而致使分类器分类性能大幅度降低。建立于统计学习基础之上的分类方法一支持向量机,具有坚实的理论依据,对于类别非失衡数据集有比其他分类算法更好的分类效果,但对于两类失衡样本。本文鉴于类别失衡数据集分类难的情况分类效果稍有欠缺,结合前人的成果提出了边界修剪

6、支持向量机方法。该方法在尽量不降低分类正确率的同时,提高了对小样本量类样本的识别率;同时也弥补了支持向量机在类别失衡数据集分类中的不足,并从W下方面做出了改进。1.分类边界混叠数据的处理。本文主要是对不同类别的样本的边界进行处理。,由于边界数据对支持向量的重要影响,故而其对分类器的构建也比较重要先前大部分的研究工作主要采用将分类边界混叠数据直接删除或简单地添加到小样本量类中的处理方式,而忽略了边界混臺数据对小样本量类的分类精度的影响。鉴于此,本文对边界海叠数据进行了细致地划分与处理。2.不同类别支持向量数目的修剪。本文根据小样本量类样本量与大样本量类支持向

7、量数目的关系采取相应的处理策略。当小样本量类样本量与大样本量类支持向量数目均衡时,又,通过引入软间瞄来求解最优超平面当两者相差较大时;提供了SMOTE算法或仿主成分分析方法,并根据需要进行择优选取;当小样本量类相对稀少且小样本量类的支持向量与大样本量类的支持向量的数量差距较大时,从小样本量类中抽取样本权重较大者,使其与小样本量类中支持向量数目之和与大样本量类的支持向量数目达到均衡,再进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。