资源描述:
《结合支持向量机的特征选择方法在信用评估中的应用外文翻译》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、外文翻译之一CombinationoffeatureselectionapproacheswithSVMincreditscoring作者:Fei-LongChen,Feng-ChiaLi国籍:Taiwan,ROC出处:ExpertSystemsWithApplications原文正文:34结合支持向量机的特征选择方法在信用评估中的应用作者:Fei-LongChen,Feng-ChiaLi国籍:Taiwan,ROC出处:ExpertSystemswithApplications中文译文:34摘要信用评级已成为一个重要课题,相关部门都在努力收集大量的数据以
2、避免做出错误的决定。一种有效的分类模型可代替直觉的经验客观地帮助管理者进行决策。本研究在保留足够的特征信息条件下,提出了四种与支持向量机相结合的特征选择方法。利用这四种方法进行属性选择可以构建各种不同的模型。两个UCI(美国加州大学尔湾分校)的数据集被用来评估各种混合SVM模型的精度,并利用支持向量机分类器与传统的统计LDA、决策树、粗糙集、F-score相结合,进行特征数据的预处理,删除不相关和冗余的信息以优化特征空间。在本文里,我们将会对所提出的方法步骤加以描述,并通过他们的分类性能进行评估。最后我们将对结合支持向量机的各种模型的分类结果进行比较,利
3、用非参数Wilcoxon符号秩检验显示这些模型之间是否具有显著性差异。本研究结果表明,混合的信用评估方法是一种寻找最优特征子集的最为稳健的方法,也是数据挖掘领域中很有前途的方法。关键字:支持向量机、线性判别分析、决策树、粗糙集理论、F-度量1、简介消费信贷预测在信贷行业里是一个非常重要的问题。信用评级模型在这个领域里快速增长,被广泛应用于信贷准入评估。信用评级模型的开发是根据以往客户的记录,即他们的相关属性诸如收入、婚姻状况、年龄或其他属性来区分哪些是优质客户(接受贷款)或者是不良客户(拒绝给予贷款)。在过去的几年里,大多数信用评级模型常通过减少冗余的特
4、征,以改进信用评级的准确性。DashandLiu(1997)对当前存在的基于特征选择的方法进行了综述,并认为特征选择过程由四部分组成,包括特征生成、特征评价、停止准则和测试。常用的评价指标诸如准确度,信息含量,距离和相关性等常被用来去除无关的特征。人工智能与机器学习技术可用来解决这些决策问题,现代数据挖掘技术已经用于建立信用评分模型(Huang,Chen,&Wang,2007)。研究人员已发展各种各样的传统统计方法,其中涉及线性判别方法(Bellotti&Crook,2008;Lee&Chen,2005;Thomas,2000)、决策树方法(Huang,
5、Tzeng,&Ong,2006)、粗糙集理论方法(Caballero,Alvarez,Bel,&Garcia,2007)、F-score方法(Chen&Lin,2005)和遗传规划方法(Ong,Huang,&Tzeng,2005)。最近,研究人员又提出了混合的数据挖掘方法对有效的信用评级模型进行设计。Lee和他的同事们(Lee,Chiu,Lu,&Chen,2002)整合神经网络与传统的判别分析法,以及Chou(Chou,Lin,Liu,&Chang,2006)应用机器学习方法(如ANN、DT和支持向量机)来解决决策问题。一般来说,信用评级可视为将观察数据
6、分类到预先定义组的二元分类问题。34以前的研究主要集中在增加信用评级模型的准确率上。然而,即使一点点的改善也会引起显著的成本节约。根据先前的研究,机器学习方法在处理信用评级问题上均优于传统方法,特别是非线性模式分类。对传统的统计分类,都存在假设一个潜在的概率模型。而最近发展起来的数据挖掘技术不存在这样的限制条件,可以实取得优于传统统计分析方法更好的预测性能(Huangetal.,2007)。特征子集选择算法可以分为两类:过滤式方法和封装式方法(Liu,1998)。过滤式方法首先是选择重要的特征子集。过滤式方法的特点是独立于任何学习算法,仅依赖于训练数据总
7、体特性的各种度量,如距离、信息含量、相关性和一致性。封装式模型通常使用预先确定的学习算法,根据预测精度来确定所选择的特征子集。但当这些学习算法用来计算大量的特征数据时,所需要的成本是非常昂贵的(John,Kohavi,&Pfleger.,1994)。一般来说,过滤方法速度快,可以用来作为减少特征空间维数和过度拟合的预处理步骤。另一方面,封装方法在寻找相关有用的变量子集上可以表现的更好(Guyon&Elisseeff,2003)。然而,众所周知的是这个问题非常困难(Amaldi&Kann,1998),快速搜索难以计算。在本研究中,过滤方法和封装方法将都被使
8、用。与SVM分类相结合的特征选择方法可以进行更好的分类。在设计混合的支持向量机分