欢迎来到天天文库
浏览记录
ID:24192751
大小:50.00 KB
页数:4页
时间:2018-11-12
《不平衡数据集分类的random》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、不平衡数据集分类的Random-->绪论 不平衡数据集分类的Random-->绪论1.1研究的背景和意义分类问题是机器学习领域的重要研究内容。现有的一些分类方法都已经相对成熟,比较有代表性的分类算法有决策树、贝叶斯网络、神经网络、k一近邻、粗糙集、支持向量机方法等。这些方法在实际的分类问题中得到了广泛的应用。随着机器学习领域从学术研究向应用科学的迅速转变,产生了以前未曾考虑的一系列新问题。不平衡数据集的分类问题就是其中一个重要问题。不平衡数据集分类考虑的是各类样本数目不平衡情况下的分类学习问题。以二分类问题为例,若训练数据集中,有一类的学习样本数大大超过另外
2、一类的样本数,那么这样的分类问题就称为不平衡数据集的分类问题。在不平衡数据集中,将样本数量多的类别定义为大类或负类,将样本数量少的类别定义为小类或正类。在不平衡类分布下,传统的分类算法不能很好地解决这一问题,因为它们以类分布基本平衡为假设前提,并且以总体分类准确率为评价指标。传统分类算法往往倾向于将所有的样本划分为大类,小类的预测效果很差。这是因为传统的分类器往往假设类分布是平衡的,以寻求总体分类准确率最大为目标,这并不适合不平衡学习任务。物以稀为贵,不平衡数据集也是这种情况。通常,不平衡数据集中,对小类的正确分类比大类的正确分类更有价值。例如网络入侵一般概率
3、为0.1%,绝大多数为正常访问。如果检测识别全部为正常访问,精度也有99.9%,但显然这一精度对于网络入侵检测是毫无意义的。所以传统分类算法对不平衡数据集的分类不尽如人意。不平衡数据集分类问题在实际应用中的困难,引起了模式识别、机器学习领域学者的研究兴趣,也是目前的研究热点,近年的IEEE和ACM的模式识别、数据挖掘、机器学习的学术会议都有相关专题讨论。近几年来,不平衡数据集的分类问题已成为机器学习、数据挖掘等领域研究的热点问题之一。不平衡数据集广泛存在于人们的现实生活和工业生产之中,并且在很多领域具有重要的环保价值或者商业意义I}l。例如,对于电信运营商,一
4、般而言,客户流失是个别现象,与正常客户相比,流失客户所占的比重很小,那么客户流失预测就是一个典型的不平衡数据集的分类问题。其他如对飞机飞行过程中故障的监测、从卫星图片中定位发生油轮漏油的位置、学习单词的发音、文本自动分类、分辨恶意的骚扰、银行识别信用差的消费者等等都是类别不平衡问题,都涉及到对不平衡数据集的分类。在这些应用中,人们主要关心的是数据集中的小类,小类的误分所产生的代价非常大。如若把有流失倾向的客户误判为正常客户将有可能失去该客户,而在移动通信中,而客户是运营商最重要的资源;再如在医疗诊断中,如果把正常人误诊为病人固然会给他带来精神上的负担,但如果把
5、一个病人误诊为正常,就可能会错过最佳治疗时期,甚至对病人造成生命威胁。因此在实际应用中,需要提高不平衡数据集的分类性能,提高小类的分类精度。对于不平衡数据集分类,Japko-SMOTE向上采样方法,通过算法合成新的小类样本,不仅可以预防传统向上采样方法造成的对小类样本的过度拟合问题,还可以平衡数据集,提高小类样本的分类精度。在此基础上,本文提出了基于Random-SMOTE的不平衡数据集分类模型,将Random-SMOTE向上采样方法和k一近邻分类算法进行了有机的结合。同时,本模型既能处理纯数值属性数据集,也能处理混合属性数据集。目前,国外对不平衡数据集分类的
6、研究近几年刚刚兴起,国内的研究也正起步。在这个领域有着广阔的研究空间。同时,由于现实生产和生活中不平衡数据集的普遍存在,本研究具有很强的理论意义和应用价值。-->B,KOs:acasestudy[J].SIGKDDExplorations,2004,6(1):60-69.[10]AKBANIR,KachineLearning(ECML'04),Pisa,2004:39-50.[11]ZHIHUAZ,XUYINGL.Trainingcost-sensitiveneuralethodsaddressingtheclassimbalanceproblem[J].IE
7、EETransonKnounbalanceddata[J].AppliedIntelligence,2004,21(2):117-128.[13]HANDDJ,VINCIOTTIV.Choosingkfort-SMOTE采样方法的设计19-283.1SMOTE方法及其不足19-203.2Random-SMOTE采样方法的设计思想20-223.3算法描述22-253.3.1属性类型233.3.2对数值属性的处理23-243.3.3对非数值属性的处理24-253.4伪代码
此文档下载收益归作者所有