非平衡数据分类算法探究

非平衡数据分类算法探究

ID:5625304

大小:32.50 KB

页数:9页

时间:2017-12-20

非平衡数据分类算法探究_第1页
非平衡数据分类算法探究_第2页
非平衡数据分类算法探究_第3页
非平衡数据分类算法探究_第4页
非平衡数据分类算法探究_第5页
资源描述:

《非平衡数据分类算法探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、非平衡数据分类算法探究  摘要:非平衡数据分类问题是近些年机器学习和数据挖掘领域的一个研究热点。对于非平衡数据分类问题,标准的分类学习算法不能获得良好的性能,因为它们往往只关注多数类而忽略少数类。从分类学习的3个不同层面对非平衡数据分类算法进行了综述,并指出了该领域未来可能的研究方向。关键词关键词:机器学习;数据挖掘;非平衡数据;分类算法中图分类号:TP312文献标识码:A文章编号:16727800(2014)0020067020引言传统的分类算法大都基于一种假定:用来学习的样本数据都是平衡的,即各类样本数据的数量差别不大。然而,现实世界中,很多情况下样例数据是不均

2、衡的。例如,在1000个体检数据集中,最终分类类型为健康的可能占90%,分类类型为不健康的则占10%,这样的数据集就是非平衡的。为便于叙述,本文将一个数据集中大多数样例都属于的分类类型称为多数类(majorityclass),而剩余样例的分类类型称为少数类(minorityclass)。对于非平衡数据的分类(imbalanced9classification),最大的问题是最终得到的分类器可能只对MA数据敏感,而忽略MI数据。在对测试数据进行分类预测时,容易将其分类为MA而忽略MI。例如,银行想利用分类算法构造一个分类器,对顾客未来是否进行信用贷款进行预测。银行的历

3、史数据(有标记样本集合)中,只有2%的顾客信用贷款,其余98%的顾客不贷款。传统的分类算法在这样的样本数据上进行学习得到的分类器,会将所有被预测的顾客判定为不贷款,因为这样可以得到98%的分类准确率。这显然不是银行的目的,能对少数可能贷款的用户进行准确预测,才是分类器的真正目的。1非平衡数据分类算法为解决非平衡数据分类问题,各种方法被相继提出,归纳起来,主要包括3个方面:改变样本分类类型分布技术、分类器技术和集成学习技术。1.1改变样本分类类型分布技术该方法又称为重取样技术(resampling),其根本目的是对原始非平衡数据集进行预处理,得到一个新的数据集。在这个

4、新的数据集中,MA样本和MI样本数量基本持平。以该思想为基础,有两种不同方法,即增重取样方法(over-sampling)和减重取样方法(under-sampling)。9增重取样方法是:保持原始样本中多数类样本不变,将少数类样本数量按一定的原则扩大,使MI样本和MA样本数持平,从而得到一个平衡数据集。随机增重取样[1]是最简单的一种增重取样方法。它直接随机地选取一定数量的MI样本,然后将这些样本原样复制,从而增加MI样本的数量。随机增重取样方法的主要缺点是:首先它增加了出现过度拟合(over-fitting)的可能性;其次,它比较耗时,尤其是在原始数据集比较大的时

5、候。为克服随机增重取样方法的不足,启发式的增重取样方法[2]被提出。这种方法不是直接复制MI样本,而是在原始MI样本上进行插值,生成新的MI样本。它能有效地防止过度拟合。位于分类类型边界附近的样本对于分类学习算法很重要,因为这些样本最容易被误判。鉴于此,基于边界的启发式增重取样方法[3]被提出。该方法只对分类边界附近的MI样本进行插值合成。减重取样方法是:通过减少原始数据集中的MA样本来得到一个平衡数据集。随机减重取样方法[4]是最简单的一种减重取样方法,它直接随机删除一些MA样本。该方法的缺点是:容易将一些含有有用信息的MA样本删除,对最终学习并得到分类器不利。最

6、近邻居减重取样方法[5]是:先找出每个样本的3个最近邻居,如果其中一个样本的分类类型与另两个样本的分类类型不一样,则将该样本删除。9当非平衡数据集的非平衡性很严重时,往往将增重取样方法和减重取样方法联合使用,以获得更好的学习效果[6]。1.2分类器技术分类器技术就是对传统的分类算法本身进行一定的调整,使非平衡数据分类问题呈现出来。它又分为3种不同方法:代价敏感方法、单类学习方法(one-classlearning)和分类器本身调节方法。代价敏感方法和重取样方法一样,是使用最多的一种处理非平衡数据分类的方法。标准分类算法的目的是获得高的预测性。在检测分类器的性能时,不

7、管是什么类型的分类错误,都被统一地记为一个错误分类,这在实际应用中是不恰当的。如计算机辅助诊断系统,将一个正常的人误判为犯病,或将一个犯病的人误判为健康,这两种误判的代价是不一样的,后者的代价显然更高,因为它可能导致犯病者延误治疗而失去生命。非平衡分类问题中,对MA样本的分类准确性往往很高,但对MI样本的分类则往往错误率很高。此时,可以采用代价敏感的方法,对MI样本的误判代价加大,使得分类器对MI样本更加敏感[78]。9非平衡数据集中,MI数据少,但往往更重要,我们可能往往只关注MI样本的分类,为此,单类学习方法可以用来处理该问题[910]。单类学习方法本质上是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。