资源描述:
《改进svm_knn的不平衡数据分类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、网络出版时间:2014-08-1516:14网络出版地址:http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1403-0109.html1ComputerEngineeringandApplications计算机工程与应用改进SVM-KNN的不平衡数据分类112王超学,张涛,马春森112WANGChaoxue,ZHANGTao,MAChunsen1.西安建筑科技大学信息与控制工程学院,西安7100552.中国农业科学院植物保护研究所,北京1001931.SchoolofInformationandC
2、ontrolEngineering,Xi’anUniversityofArchitectureandTechnology,Xi’an710055,China2.ChinaInstituteofPlantProtection,ChineseAcademyofAgriculturalSciences,Beijing100193,ChinaWangChaoxue,ZhangTao,MaChunsen.ImprovedSVM-KNNalgorithmforimbalanceddatasetsclassifica-tion.ComputerEngineeringan
3、dApplicationsAbstract:ImprovedKNN-SVMthatcombinedSupportVectorMachine(SVM)withKNearestNeighbor(KNN)ispresentedtoimprovetheaccuracyofimbalancedclassificationnearbySVMhyperplane.Intheclassphase,theal-gorithmcomputesthedistancefromthetestedsampletotheoptimalsuper-planeofSVMinthefeatu
4、respace.Ifthedistanceisgreaterthanthegiventhreshold,thetestedsamplewillbeclassifiedonSVM;otherwisetheSVsfromdifferentcategoriesareusedasthetestedsampleofnearestneighbors,thetestedsamplewillbeclassifiedonKNN.AlargeamountofexperimentsbytheUCIdatasetshowthatthealgorithmcansignificant
5、lyimprovetheidentifica-tionrateoftheminoritysamplesandoverallclassificationperformance.Keywords:SVM(SupportVectorMachine);KNN(KNearestneighbor);imbalanceddatasets摘要:针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanceddatasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接可以应用支持向量
6、机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。关键词:支持向量机;K近邻法;不平衡数据集doi:10.3778/j.issn.1002-8331.1403-0109文献标志码:A中图分类号:TP181[2-3]类器整体性能下降。在实际应用中,如入侵检测、1引言文本分类、医疗诊断等方面,人们更加关注少数类不平衡数据分类问题是指数据样本中某些类的样本识别。因此,如何有效的提高少数类的识别率数量远远小于其它类时的分类研究。其中,
7、数目较和分类器的整体性能,成为国际数据挖掘领域研究[1]多的类被称为多数类;数目较少的类被称为少数[4]的热点之一。类。传统的分类算法在处理不平衡数据时,分类结统计学习理论建立了一套较好的有限样本下机果往往会倾向于多数类,忽略少数类,从而导致分机器学习的理论框架,同时也发展了一种模式识别基金项目:国家自然科学基金资助项目(31170393);陕西省自然科学基金(2012JM8023);陕西省教育厅自然科学基金专项(12JK0726)。作者简介:王超学(1967-),男,博士,教授,CCF会员(NO.E200027893M),研究领域为智能计算;张涛(198
8、6-),男,硕士生,研究领域为数据挖掘;马春森,男,研究员。E-m