改进svm_knn的不平衡数据分类

改进svm_knn的不平衡数据分类

ID:34619508

大小:92.09 KB

页数:7页

时间:2019-03-08

改进svm_knn的不平衡数据分类_第1页
改进svm_knn的不平衡数据分类_第2页
改进svm_knn的不平衡数据分类_第3页
改进svm_knn的不平衡数据分类_第4页
改进svm_knn的不平衡数据分类_第5页
资源描述:

《改进svm_knn的不平衡数据分类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、网络出版时间:2014-08-1516:14网络出版地址:http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1403-0109.html1ComputerEngineeringandApplications计算机工程与应用改进SVM-KNN的不平衡数据分类112王超学,张涛,马春森112WANGChaoxue,ZHANGTao,MAChunsen1.西安建筑科技大学信息与控制工程学院,西安7100552.中国农业科学院植物保护研究所,北京1001931.SchoolofInformationandC

2、ontrolEngineering,Xi’anUniversityofArchitectureandTechnology,Xi’an710055,China2.ChinaInstituteofPlantProtection,ChineseAcademyofAgriculturalSciences,Beijing100193,ChinaWangChaoxue,ZhangTao,MaChunsen.ImprovedSVM-KNNalgorithmforimbalanceddatasetsclassifica-tion.ComputerEngineeringan

3、dApplicationsAbstract:ImprovedKNN-SVMthatcombinedSupportVectorMachine(SVM)withKNearestNeighbor(KNN)ispresentedtoimprovetheaccuracyofimbalancedclassificationnearbySVMhyperplane.Intheclassphase,theal-gorithmcomputesthedistancefromthetestedsampletotheoptimalsuper-planeofSVMinthefeatu

4、respace.Ifthedistanceisgreaterthanthegiventhreshold,thetestedsamplewillbeclassifiedonSVM;otherwisetheSVsfromdifferentcategoriesareusedasthetestedsampleofnearestneighbors,thetestedsamplewillbeclassifiedonKNN.AlargeamountofexperimentsbytheUCIdatasetshowthatthealgorithmcansignificant

5、lyimprovetheidentifica-tionrateoftheminoritysamplesandoverallclassificationperformance.Keywords:SVM(SupportVectorMachine);KNN(KNearestneighbor);imbalanceddatasets摘要:针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanceddatasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接可以应用支持向量

6、机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。关键词:支持向量机;K近邻法;不平衡数据集doi:10.3778/j.issn.1002-8331.1403-0109文献标志码:A中图分类号:TP181[2-3]类器整体性能下降。在实际应用中,如入侵检测、1引言文本分类、医疗诊断等方面,人们更加关注少数类不平衡数据分类问题是指数据样本中某些类的样本识别。因此,如何有效的提高少数类的识别率数量远远小于其它类时的分类研究。其中,

7、数目较和分类器的整体性能,成为国际数据挖掘领域研究[1]多的类被称为多数类;数目较少的类被称为少数[4]的热点之一。类。传统的分类算法在处理不平衡数据时,分类结统计学习理论建立了一套较好的有限样本下机果往往会倾向于多数类,忽略少数类,从而导致分机器学习的理论框架,同时也发展了一种模式识别基金项目:国家自然科学基金资助项目(31170393);陕西省自然科学基金(2012JM8023);陕西省教育厅自然科学基金专项(12JK0726)。作者简介:王超学(1967-),男,博士,教授,CCF会员(NO.E200027893M),研究领域为智能计算;张涛(198

8、6-),男,硕士生,研究领域为数据挖掘;马春森,男,研究员。E-m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。