基于AUC回归的不平衡数据特征选择模型研究-论文.pdf

基于AUC回归的不平衡数据特征选择模型研究-论文.pdf

ID:57924272

大小:521.30 KB

页数:7页

时间:2020-04-14

基于AUC回归的不平衡数据特征选择模型研究-论文.pdf_第1页
基于AUC回归的不平衡数据特征选择模型研究-论文.pdf_第2页
基于AUC回归的不平衡数据特征选择模型研究-论文.pdf_第3页
基于AUC回归的不平衡数据特征选择模型研究-论文.pdf_第4页
基于AUC回归的不平衡数据特征选择模型研究-论文.pdf_第5页
资源描述:

《基于AUC回归的不平衡数据特征选择模型研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3O卷第5期统计与信息论坛2015年5月Vo1.30No.5Statistics&InIormationForumMay,2015【统计理论与方法】基于AUC回归的不平衡数据特征选择模型研究李扬hJk,李竟翔,王园萍。(1.中国人民大学乱应用统计科学研究中心,b.统计学院,C.统计咨询研究中心,北京100872;2.美国明尼苏达大学统计学院,明尼阿波利斯55455;3.日立(中国)研究开发有限公司顾客创办中心,北京100190)摘要:针对不平衡数据的泛化预测和特征选择问题,提出了一种引入MCP惩罚函数的AUC回归模型(McP

2、—AUCR)。该模型采用考虑所有阈值信息的优化目标函数,具有处理不平衡数据的能力,并具有较好的特征选择效果;在讨论该模型定义与原理的基础上,提出相应的循环坐标下降训练算法,并通过数值模拟研究验证其优良性质;针对中国股票市场机械、设备、仪表板块中的上市公司,构建了基于MCP—AUCR的财务预警模型。研究结果显示:该财务预警模型可以选择出可解释的重要财务指标并进行有效预测,显著优于传统模型。关键词:AUC回归;MCP惩罚;特征选择;财务预警中图分类号:O212.1:F224.0文献标志码:A文章编号:1007-3116(2015)

3、O5一OO1O—O7同类别样本比例相差悬殊的情况),基于这类指标训一、引JI言口练模型的预i贝0精度会受到模型阈值的严重影响。以随着“大数据时代”的来临,在数据采集与存储越二分类Logistic回归模型为例,训练后Logistic回归来越便捷的同时,也导致了大量信息冗余问题的出现。模型可以输出样本归属于某类(1类或0类)的预测在预测研究中,研究者为了避免遗漏重要的预测变量,概率,常用的阈值为50%,即若预测概率大于等于往往向模型中引入尽可能多的预钡0变量。然而,过多5O预测为l类,否则预测其为0类样本,但在两类甚至冗余的变量不

4、仅会使训练得到的模型难以解释,样本不平衡的情况下,最优的阈值未必为50。为还会带来诸如多重共线性、模型统计推断失效等问题,了得到较为准确的预测结果,需要对阈值进行优化处从而降低模型的泛化能力。特征选择方法正是解决这理,这就使模型的训练变得相对繁琐[5]。目前,解决类问题的有效途径:“它通过剔除掉那些不重要的变不平衡样本问题的方法主要基于抽样理论,如量,使模型更加简洁且易于解释”[13。多种基于罚函数SM0]、基于S^伽的改进与基于聚类的欠抽样的特征选择方法在线性回归分析中已经被提出和使方法等[6-7]。这类方法的核心思想是利用

5、重抽样扩用,如Lasso、SCAD、MCP、GroupLasso等方法_2J。大少数类样本的样本量,利用欠抽样去除大类样本的从统计角度看,可以将特征选择方法视为寻找最噪声,最后构造一个合理的平衡数据集。上述方法对优的预测变量子集合的过程,而评价特征选择效果优不平衡样本的处理破坏了原始数据的数据结构,并且劣的标准是模型泛化能力的大小。描述模型泛化能违背了研究的可重复性原则。所以,本文主要考虑在力的指标大多基于单个混淆矩阵计算,例如模型的召模型层面上解决不平衡样本下的特征选择,即在不破回率、准确率等。在样本存在不平衡的情况下(即不

6、坏样本结构的前提下构造一个能够有效处理不平衡收稿日期:2O14—1O~18;修复日期:2O15一O3—26基金项目:国家自然科学基金青年项目《预测模型的结构化变量选择方法研究》(71301162);中国人民大学应用统计科学研究中心自主项目《高维异质性数据的特征选择方法研究》(217614OOO821)作者简介:李扬,男,北京人,副教授,研究方向:相关型数据分析,变量选择模型;李竞翔,男,北京人,硕士生,研究方向:数据挖掘;王园萍,女,山东烟台人,研究员,研究方向:金融数据挖掘。10李扬,李竟翔,王园萍:基于AUC回归的不平衡数

7、据特征选择模型研究样本中特征选择问题的模型。Y一0),所以对于的估计可以通过最大化研究者提出利用接收者操作特征曲线(ROC,AUC(f1)来得到。这等价于构造了一个基于AUC的ReceiverOperatingCharacteristicCurve)及其下围面分类回归模型(为保证模型的可识别性,本文将积(AUC,AreaUndertheR0CCurve)评估模型的泛llIl设定为1)。化能力L8]。ROE曲线将同一模型每个阈值对应的假式(2)所示的目标函数并非连续,导致建模过阳比率(FPR,FalsePositiveRate)

8、、真阳比率(TPR,程中针对AUC(f1)的优化相对困难。为解决此问题,TruePositiveRate)都描绘在坐标空间中,而AUC即Ma和Huang引入了平滑AUC函数,如式(3)[8]:ROC曲线的下围面积。如果以yD作为模型输出的1sJ9一1(X,fl—XJ3类样本的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。