欢迎来到天天文库
浏览记录
ID:32290311
大小:1.56 MB
页数:26页
时间:2019-02-02
《第8课:金融风控问题》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、金融风控问题案例寒小阳七月在线2017年1月22日“魔镜杯”风控算法大赛七月在线Kaggle实战班2背景介绍比赛公开了国内网络借贷行业的贷款风险数据包括信用违约标签(因变量)建模所需的基础与加工字段(自变量)相关用户的网络行为原始数据本着保护借款人隐私以及拍拍贷知识产权的目的,数据字段已经过脱敏处理。数据简介数据编码为GBK。初赛数据包括3万条训练集和2万条测试集。复赛会增加新的3万条数据,供参赛团队优化模型,并新增1万条数据作为测试集。所有训练集,测试
2、集都包括3个csv文件。julyedu.com七月在线Kaggle实战班3/54数据信息Master(每一行代表一个成功成交借款样本,每个样本包含200多个各类字段。idx:每笔贷款的uniquekey,可与另外2个文件里的idx相匹配。UserInfo_*:借款人特征字段WeblogInfo_*:Info网络行为字段Education_Info*:学历学籍字段ThirdParty_Info_PeriodN_*:第三方数据时间段N字段SocialNetwork_*:社交网
3、络字段LinstingInfo:借款成交时间Target:违约标签(1=贷款违约,0=正常还款)。测试集里不包含target字段。julyedu.com七月在线Kaggle实战班4/54数据信息Log_Info(借款人的登陆信息)ListingInfo:借款成交时间LogInfo1:操作代码LogInfo2:操作类别LogInfo3:登陆时间idx:每一笔贷款的uniquekeyUserupdate_Info(借款人修改信息)ListingInfo1:借款成
4、交时间UserupdateInfo1:修改内容UserupdateInfo2:修改时间idx:每一笔贷款的uniquekeyjulyedu.com七月在线Kaggle实战班5/54处理过程数据清洗对缺失值的多维度处理对离群点的剔除方法文本处理特征工程地理信息处理成交时间类别型编码组合特征特征选择Xgboost重要度排序类别不平衡处理代价敏感学习与过采样模型设计与优化julyedu.com七月在线Kaggle实战班6/54数据清洗
5、缺失值的多维度处理按列(属性)统计缺失值个数,进一步得到各列的缺失比率julyedu.com七月在线Kaggle实战班7/54数据清洗缺失值的多维度处理按行统计每个样本的属性缺失值个数,将缺失值个数从小到大排序julyedu.com七月在线Kaggle实战班8/54数据清洗剔除常变量原始数据中有190维数值型特征,通过计算每个数值型特征的标准差,剔除部分变化很小的特征,下表列出的15个特征是标准差接近于0的,剔除这15维特征。julyedu.com七月在线Kaggle实
6、战班9/54数据清洗离群点剔除在原始数据上训练xgboost,用得到的xgb模型输出特征的重要性,取最重要的前20个特征(如图3所示),统计每个样本在这20个特征上的缺失值个数,将缺失值个数大于10的样本作为离群点。julyedu.com七月在线Kaggle实战班10/54数据清洗其余处理(1)字符大小写转换Userupdate_Info表中的UserupdateInfo1字段,属性取值为英文字符,包含了大小写,如“_QQ”和“_qQ”,很明显是同一种取值,我们将所有字符统一转换为小写
7、。(2)空格符处理Master表中UserInfo_9字段的取值包含了空格字符,如“中国移动”和“中国移动”,它们是同一种取值,需要将空格符去除。(3)城市名处理UserInfo_8包含有“重庆”、“重庆市”等取值,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉“市”之后,城市数由600多下降到400多。julyedu.com七月在线Kaggle实战班11/54特征工程地理位置的处理UserInfo_7和UserInfo_19是省份信息,其余为城市信息。统计每个省份和城市的违约
8、率,以UserInfo_7为例julyedu.com七月在线Kaggle实战班12/54特征工程地理位置的处理违约率最大的几个省份或直辖市为四川、湖南、湖北、吉林、天津、山东构建6个二值特征:“是否为四川省”、“是否为湖南省”....“是否为山东省”,其取值为0或1julyedu.com七月在线Kaggle实战班13/54特征工程地理位置的处理按城市等级合并类别型特征取值个数太多时,独热编码后得到太高维的稀疏特征。除了采用上面提到的特征选择方法
此文档下载收益归作者所有