欢迎来到天天文库
浏览记录
ID:35137745
大小:6.35 MB
页数:71页
时间:2019-03-20
《logistic模型对非平衡数据的敏感性测度、修正与比较》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校编码:10173分类号密级___学号:2014100470UDC__?杂化资/、夸硕±学位论文Loistic模型对非平衡数据的敏感性;g测度、修正与比较TheSensi村vitofLois村CReressio凸toUnbalancedData:yggMeasurement,CorrectionandComparison指导教师姓名:魏珪瑞—级学科名琼:统计学二级学科名祿:统计学论文答辨时间:2016年11月摘要一近年来,非平衡数据分类问题已成为机器学习和数据挖掘领域的个研究热点一类或某些
2、类的样木量与其他类相差悬。非平衡数据集是指数据集中某殊,其中样本量较少的称为稀有类,而样本量较多的称为多数类。由于数据集的非平衡性,,使得传统分类算法对稀有类的识别能力大大减弱。在实际问题中遗漏或错分稀有类往往会造成严重的损失,因此,人们更加关注稀有类的分类准确率,,这。针对上述问题解决非平衡数据分类问题的新方法应运而生些方一i法主要可■分为两种,种是基于算法层面的改进方法,即在传统分类算法的ti基础上进行相应地改进,使改进后的新算法在分类过程中不但关注整体的分类效果,而且更加注重稀有类的分类效果,进而提高稀有类的分类准确率,如代价敏感学习一、集成学习、单类
3、学习、特征选择和训练集划分等;另种是基于数据层面的改进方法,即采用不同的抽样方法对原有的非平衡数据集进行预处理,使处理后的数据集中稀有类与多数类的分布基本平衡,如简单随机抽样、单边选择、SMOTE等。在非平衡数据分类问题的研究中,评价指标的选取也一是至关重要的,评价指标不能单独考虑某类的分类准确率,而要综合考虑稀有类与多数类的分类效果,如AUC值、G统计量、F统计量、民0C曲线等。其中,最直观的方式是采用民OC曲线,民0C曲线完整地显示了分类器在不同参数或阔值条件下对稀有类与多数类分类错误的所有可能的组合。随着机器学习和数据挖掘的不断发展与完善,用于分类的模
4、型算法越来越多,分类技术也日趋成熟,如判别分析、Logistic模型、KNN算法、决策树、支持向量机等,,也取。在实际问题中这些分类算法都得到了广泛的应用得了不错的分类效果。本文选取解释性较强、稳健性较高的Logistic模型作为研究l对象,^UCI数据库为研究样本,并对数据样本施W平衡化的五折交叉验证技术,分析Logistic模型对不同程度非平衡数据的敏感性。研究表明:(1)Loistic模型在分类预测中会受到非平衡数据的影响g,且数据非平衡iti程度越高,logsc模型对稀有类的识别能力越差。(2)相对于民0S、RUS和SMCXTE等其他修正方法,OS
5、S方法的改进效民0SRUS这果不明显且不稳定,和类简单随机抽样方法的;相对于复杂抽样修正效果更优。I+(3)在模型评估方面,构造平衡化的五折交叉验证,发现相对于Acc和G统计量,,AUC值不适宜于非平衡数据条件下的模型选择因为在非平衡数据条件下,它既不能有效地区分四种修正方法之优劣,而且修正前后的差异亦不能辩。关键词:Logistic模型,非平衡数据,ROC曲线,AUC值,平衡化五折交叉验证IIABSTRACTInrecentearsclass行cationforunbalanceddatasetshasbecomeahot
6、toiciny,ipthefieldofmachi打eleami打ganddatami打i打.Theunbalanceddatasetsrefertothat呂thesamplesofoneclassarelessthantheoth巧o打eorothers.AndtheclassCO打tai打i打go打lyafewsamplesisc过liedr过recalss,\vhiletheothero打eCO打tai打ingmoresamesscalledmaotcassThetradi
7、tionamachneleami打aorithmsplijriyl.liglgperformbadlyontherareclassduetotheimbalanceintheclassdistribution.虹realitythecostofmissinormisclassifintherareclassisusuallmuchhiher,gygyg
此文档下载收益归作者所有