欢迎来到天天文库
浏览记录
ID:44278600
大小:40.50 KB
页数:7页
时间:2019-10-20
《非平衡数据分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、非平衡数据分类算法研究摘要:非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对丁非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未來可能的研究方向。关键词关键词:机器学习;数据挖掘;非平衡数据;分类算法中图分类号:TP312文献标识码:A文章编号:16727800(2014)0020067020引言传统的分类算法大都基于一种假定:用来学习的样本数据都是平衡的,即各类样本数据的数量差别不人。然而,现实世界中,很多情况下样例数据是不均衡的。例如
2、,在1000个体检数据集中,最终分类类型为健康的可能占90%,分类类型为不健康的则占10%,这样的数据集就是非平衡的。为便于叙述,本文将一个数据集中大多数样例都属于的分类类型称为多数类(majorityclass),而剩余样例的分类类型称为少数类(minorityclass)o对于非平衡数据的分类(imbalancedclassification),最大的问题是最终得到的分类器可能只对MA数据敏感,而忽略MI数据。在对测试数据进行分类预测时,容易将其分类为MA而忽略MI。例如,银行想利用分类算法构造一个分类器,对顾客未來是否进行信用贷款进行预测。银行的历史数据(有标记样本
3、集合)中,只有2%的顾客信用贷款,其余98%的顾客不贷款。传统的分类算法在这样的样本数据上进行学习得到的分类器,会将所有被预测的顾客判定为不贷款,因为这样可以得到98%的分类准确率。这显然不是银行的目的,能对少数可能贷款的用户进行准确预测,才是分类器的真正目的。1非平衡数据分类算法为解决非平衡数据分类问题,各种方法被相继提出,归纳起來,主要包括3个方面:改变样木分类类型分布技术、分类器技术和集成学习技术。1.1改变样本分类类型分布技术该方法又称为重取样技术(resampling),其根本目的是对原始非平衡数据集进行预处理,得到一个新的数据集。在这个新的数据集中,MA样本和
4、MI样本数量基本持平。以该思想为基础,有两种不同方法,即增重取样方法(over-sampling)和减重取样方法(under-sampling)o增重取样方法是:保持原始样本中多数类样本不变,将少数类样本数量按一定的原则扩大,使MI样本和MA样本数持平,从而得到一个平衡数据集。随机增重取样[1]是最简单的一种增重取样方法。它直接随机地选取一定数量的MI样本,然后将这些样本原样复制,从而增加MI样本的数量。随机增重取样方法的主要缺点是:首先它增加了出现过度拟合(over-fitting)的可能性;其次,它比较耗时,尤其是在原始数据集比较大的时候。为克服随机增重取样方法的不足
5、,启发式的增重取样方法[2]被提出。这种方法不是直接复制MI样本,而是在原始MI样本上进行插值,生成新的MI样本。它能有效地防止过度拟合。位于分类类型边界附近的样本对于分类学习算法很重要,因为这些样本最容易被误判。鉴于此,基于边界的启发式增重取样方法[3]被提出。该方法只对分类边界附近的MI样本进行插值合成。减重取样方法是:通过减少原始数据集中的MA样本來得到一个平衡数据集。随机减重取样方法[4]是最简单的一种减重取样方法,它直接随机删除…些MA样本。该方法的缺点是:容易将一些含冇冇用信息的MA样木删除,对最终学习并得到分类器不利。最近邻居减重取样方法[5]是:先找出每个
6、样本的3个最近邻居,如果其中一个样本的分类类型与另两个样本的分类类型不一样,则将该样本删除。当卄平衡数据集的非平衡性很严垂时,往往将增重取样方法和减重取样方法联合使用,以获得更好的学习效果[6]。1.2分类器技术分类器技术就是对传统的分类算法本身进行一定的调整,使非平衡数据分类问题呈现岀来。它又分为3种不同方法:代价敏感方法、单类学习方法(one-classlearning)和分类器本身调节方法。代价敏感方法和重取样方法一样,是使用最多的一种处理非平衡数据分类的方法。标准分类算法的目的是获得高的预测性。在检测分类器的性能时,不管是什么类型的分类错误,都被统一地记为一个错误
7、分类,这在实际应用中是不恰当的。如计算机辅助诊断系统,将一个正常的人误判为犯病,或将一个犯病的人误判为健康,这两种误判的代价是不一样的,后者的代价显然更高,因为它可能导致犯病者延误治疗而失去生命。非平衡分类问题屮,对MA样本的分类准确性往往很高,但对MI样本的分类则往往错误率很高。此时,可以釆用代价敏感的方法,对MI样本的误判代价加大,使得分类器对MI样本更加敏感[78]o非平衡数据集中,MI数据少,但往往更重要,我们可能往往只关注MI样本的分类,为此,单类学习方法可以用来处理该问题[910]o单类学习方法本质上是一种以识别为
此文档下载收益归作者所有