欢迎来到天天文库
浏览记录
ID:5941182
大小:27.00 KB
页数:6页
时间:2017-12-29
《基于svm算法客户诚信度评价模型探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于SVM算法客户诚信度评价模型探究 摘要针对目前大量的商业活动中对客户诚信度评价方法的欠缺,本文提出了一种新型的预测模型,即将高斯核函数同SVM算法相结合,在非线性多维特征解空间的环境下,也可做到较为准确的评估。通过实践验证,同以往的预测模型相比较,该算法不论在预测准确性以及泛化能力上都有更为突出的表现。关键词:诚信度评价SVM中图分类号:O571.21+1文献标识码:A文章编号:1、引言近年来,中国经济发展迅猛,不论在实体经济还是电子商务领域都取得了举世瞩目的成就。但随着各种贸易成交数量大幅度上升的同时,也暴露出了许多的问题,例如信息不对称、各种
2、商业欺诈、以及各种干扰因素使得交易无法履行等。尤其是关于客户诚信度担忧,使得很多交易无法正常运转,所以一个好的客户诚信度评价模型为这些企业带来的帮助和效益是毋庸置疑的。6诚信度评价的结果就是客户可能因为各种原因而导致的无法履约的概率,而这一模型需要采集和客户相关的原始材料,通过预测算法将客户进行分类(最简单的分类法就是分违约和履约两类),或者通过算法估计出违约概率,以及目前使用比较多的评分制度,总体上看,诚信度评价就是一种对客户的分类问题。分类问题的研究领域非常广泛,尤其在人工智能算法领域中更是研究的热点,例如遗传算法和神经网络系统等,但这些算法仍然存
3、在很多不足,例如算法复杂度过高、操作难度大、干扰因素多导致局部收敛等问题,而且很多算法本质属于是“黑盒”结构,这类不透明的算法本身的合理性就存在很大的质疑。2、SVM算法支持向量机SVM(SupportVectorMachine)是统计机器学习的一类重要算法,它根据统计学习理论,以结构风险最小化原则为理论基础的一种新的机器学习方法,能有效地解决高维数和非线性等问题,有效地进行分类、回归等。与其它分类器相比,SVM具有更好的泛化性。3、诚信度评价的SVM模型设计SVM算法的本质是将采集的两个样本群体分类划归至两个类别,分别用核函数的正负值来表示,并将正负
4、类别进行隔离化处理。即距超平面最近的异类向量之间的距离最大。决策函数为:(1)其中,表示诚信客户,能够确认履约;相反,确认不能履约的非诚信客户用6表示,以此来构造训练样本群体为,式中。设使用超平面来将正负类分隔,则可得到关于正负类的两个平面,分别是和(2)现考虑两种极限解,即①所有客户均为诚信履约客户,则这些客户点都落在上,则有:(3)反之,非诚信违约客户点都在上,则有:(4)上述不等式可以看出,我们可通过调节参数W和b的值,来比较和权衡,最后确定最佳的超平面公式,评价的标准即间距达到最大值。据此可以将最佳超平面的求解问题演变为优化问题,即;(5)之所
5、以采用,是为了将处理的更为平滑,减少算法曲线局部收敛的可能,从而提高了算法优化的准确性。考虑到算法所优化的实际场合中,很多情况下必须兼顾到非线性问题,因此在以上模型的基础上,添加了核函数技术,即可很好的解决多维非线性问题。同时考虑在实际应用中,很多约束条件本身具有一定的不确定性,如有些条件是可退让的,即可软化的,因此添加软化因子;而有些条件是硬性的,不允许有些许误差,因此增加惩罚因子,C的值越大,表明此解受到的惩罚力度越大。式(5)可改进为:;(6)再将上式引入原始对偶问题的极小化函数,则可得到:(7)6解得;;(8)由此,最终得到了式(1)当中所列的
6、决策函数:,下一步就要对所采集样本进行训练和验证。4、样本群体的训练和验证4.1客户诚信度评价指标的选择客户的诚信度高低是有很多因素共同构成的,且相互之间存在一定的关联性。要想全面考虑所有的影响因素是不可能的,因为不同的用户受其影响的概率和程度都有所不同,只能抓住主要因素,舍弃次要因素,才能做出较为客观的评价。参考指标的选择是非常关键的环节,不论是将次要因素当做主要因素来归纳到指标系统,还是漏选了主要因素,都会对预测结果带来严重的影响,使其以一个较大的幅度偏离真实值,从而失去了预测的准确性。本文综合考虑的多方面因素,进行了比较深入的调研,然后依据指标选
7、取原则最终选取了9项客户诚信度评价指标,如表1所示:表1客户诚信度评价指标4.2样本采集和处理6从本地一家LED灯具厂采集客户数据样本,使用随机法抽取两组客户数据,分别为诚信客户组65家和非诚信客户组30家。诚信客户组以往业绩良好,无违约前例;非诚信客户组里的企业资信较差,或有违约前例,或因其他理由拖延履行以及中途提出修改合同条款。两组样本数量一共为95家企业数据,构成原始数据样本集,再将其划分为训练样本集和测试样本集。4.3SVM模型分析及结果验证依照前文所述,建立样本集,按照本案例,参数X的维数为9,Y的值根据客户诚信与否来定,诚信客户为1,非诚信
8、客户为-1。通过大量的实验数据同真实数据的比对,我们可以获得最佳的核函数参数,训练样本同测试样
此文档下载收益归作者所有