知识图谱&XGboost构建风控模型.docx

知识图谱&XGboost构建风控模型.docx

ID:62004732

大小:656.38 KB

页数:7页

时间:2021-04-10

知识图谱&XGboost构建风控模型.docx_第1页
知识图谱&XGboost构建风控模型.docx_第2页
知识图谱&XGboost构建风控模型.docx_第3页
知识图谱&XGboost构建风控模型.docx_第4页
知识图谱&XGboost构建风控模型.docx_第5页
资源描述:

《知识图谱&XGboost构建风控模型.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、文档来源:和美信息作者:Haimao知识图谱&XGboost构建风控模型做过金融行业项目风控项目的同学知道,做风控项目其实只做一件事,那就是人群中分出坏人和好人。当然何为坏人,何为好人,往往是具体业务场景具体分析,在不同的场景中有着不同的定义。比如将贷款细分成贷前贷后两个场景,在贷前场景:提交假资料的是”坏人”,审定资格不合格的也是”坏人”,反之则为”好人”,而到贷后场景中的定义就可能为:贷款后逾期还款或者不还款的是”坏人”,反之则是”好人”。风控问题是一个分类问题,而且大部分情况下是一个二分类问题。我们可以用所有机器学习分类方法来加以解决。当然此处所说的机器

2、学习的定义是广泛的机器学习定义,其包含深度学习等学习方法。和美信息科技某某在风控核心技术方面经验丰硕,结合知识图谱等技术不断提高模型落地效果.深得客户信赖.7/7文档在最近的一次为和美银行客户贷后逾期模型建模中,我们采用了知识图谱来参与特征构建,相比传统非图谱的方式,图谱能够挖掘出更深层次的有效特征,比如基于图谱的特征工程可以考虑加入N度关系特征。假设我们需要预测A用户是否会逾期,我们可以构建一个特征为:{A的朋友中有多少个逾期的用户这个特征},也可以构建一个{A所在公司的今年利润}这个特征,当然你也可以构建一个{A朋友的朋友中是否年薪百万}这样的更深层次的特

3、征。这些在知识图谱结构中是很容易想到并且做到的。相比传统结构化数据,图谱结构的数据能让你脑洞大开的特征想法更容易得到。当然具体这个特征有没有用,对预测有多大的影响权重,只能由模型效果告诉你。一般来说这些额外添加的有用特征总能让你得到惊喜,能够很好的提高最终的模型效果。7/7文档建模图存储数据库我们选择了当前主流的图数据库Neo4j,关于Neo4j的介绍就不展开了,这里说一下对它项目实战后的感受:在常规图查询上Neo4j没什么问题,一般的常用函数也都支持,即使较大量的数据(注:该项目中数据大体为节点数2亿+,关系6亿+,属性60亿+级别),在建好索引的条件下查询

4、速度也还是可以满足需求的。但操作维护便捷性上和传统的关系型数据库还是有差距的,举个例子:当时通过loadcsv方式大批量导入数据时遇到一个死锁问题,尝试了各种办法,最后竟然除了重启没有其他办法.运维团队对此表示很不理解,数据库重启,在生产环境上,这代价大家懂的,当然我相信随着版本的更新,Neo4j的这个问题肯定会得到解决。这里还是要提醒大家,尤其是图谱新手,不能把Neo4j当作普通关系型数据库来用,不加甄别的把一堆毛数据往里存。在做数据分析建模使用中图数据库还是建议放经过处理后的数据,该聚合的前期聚合,对分析不重要的数据维度该舍弃的舍弃。因为这些在关系型数据库

5、或者Pandas中相比于Neo4j处理起来更加方便和快捷。分类模型算法我们选择了XGboost进行建模。XGboost算法在分类问题上拥有骄人的战绩,其提出以来,大幅刷新各项比赛成绩,风靡一时。7/7文档XGboost是一个决策树集成模型,对于一个给定的nxm的数据集(n个样本,每个样本m个特征):XGboost会将构成的K棵决策树预测结果进行求和,作为其最终的预测值。因为其每个子函数都是决策子树,所以其也有决策树算法所具有的特点:1。容易受极值点影响。2。容易过拟合。这两点,在实际应用过程中是必须要引起重视的。第1点是所有非参数学习算法的通病,需要在数据预处

6、理环节做好前期处理。7/7文档第2点既是缺点也是优点,容易过拟合在模型训练中是一个时刻需要注意避免的问题,但模型算法容易过拟合也恰恰是模型的表达能力强的表现,比如神经网络深度学习模型训练过程中也是非常容易产生过拟合。XGboost在避免模型过拟合采用的是在损失函数中加入正则化项的方法。其损失函数定义为:其中ι函数部分为真实值和预测值的误差和,后半部分Ω为正则化项。正则化项中对容易过拟合的叶子节点个数Τ,每个叶子节点的最终分数ω进行必要的限制,而γ,λ为超参数。正则化项的加入在最小化loss的过程中有效的减少了模型过拟合的产生。在项目中XGboost算法不仅用来

7、做最后的模型训练和预测,也用于做特征增强,从最开始的变量初筛,我们从400多个变量中选出了最终的20个变量,将这20个变量经过XGboost模型的方式构建出部分新特征。这种特征增强方式于2014年由Facebook在广告CTR预测中被提出。其核心原理为是将boosting看作是一个将样本进行非线性变换的方法。其实在一般情况下处理特征变换的方法有两种:7/7文档·对于连续的特征:一个简单的非线性变化就是将特征划分到不同的区域(bin),然后再将这些区域的编号看作一个离散的特征来进行训练。这也就是俗称的连续变量离散化方法,分箱操作。·对于离散的特征:我们可以直接对

8、离散特征做一个笛卡尔积从而得到一系列特

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。