分类与决策树.ppt

分类与决策树.ppt

ID:50765877

大小:859.00 KB

页数:58页

时间:2020-03-14

分类与决策树.ppt_第1页
分类与决策树.ppt_第2页
分类与决策树.ppt_第3页
分类与决策树.ppt_第4页
分类与决策树.ppt_第5页
资源描述:

《分类与决策树.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分类与预测Vicky银行个人住房贷款审批银行个人客户提出住房贷款申请,根据历史数据发现:部分贷款客户不能按时还款。为尽量降低这种现象,需要发现不能按时还款客户的特征,以便对以后住房贷款申请的审批提供依据。2006年年底,由SAS机构与招商银行启动了全行个人住房贷款评分卡开发与推广项目。该项目利用客户的历史数据构建评分卡模型,然后将该模型应用到新客户上,最后决定是否接受新客户的贷款申请。分析数据集应该包括哪些客户?银行贷款申请IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFair

2、No2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNo

3、NoFairNo分类与预测分类:目标变量为非数值型预测:目标变量为数值型根据历史数据集(已知目标变量),构建模型描述目标变量与输入变量之间的关系,并依据模型来分类或预测新数据(目标变量值未知)。分类模型也称为分类器。模型应用建模规则1:Ifrefund=noandmarst=marriedthencheat=no……模型评估分类的过程数据集分区训练集:建立模型验证集:调整和选择模型测试集:评估模型的预测能力建立模型评估并选择模型运用模型新数据(打分集)思考:分类模型在什么情况下不适合用于新数据?分类方法决策树方法

4、贝叶斯分类法LOGISTIC回归神经网络方法K近邻分类法SVM分类法……….RootLeafNode7决策树(decisiontree)规则1:Ifrefund=noand(marst=singleormarst=divorced)andtaxincome>80kthencheat=yes……决策树是一棵二叉或多叉树结构每个内部节点代表一个属性,该节点的分支表示根据该属性的不同测试条件的输出叶子节点表示一个类标决策树一般是自上而下生成的决策树基本思想建立决策树将决策树转换为决策规则并应用相关问题讨论内容一、决策树

5、思想将数据集根据某种测试条件分为2个或多个子集,使分裂后的子集在目标变量上具有更纯的分类纯度与混杂度混杂度的常用测度指标信息熵(Entropy)基尼指数(GiniIndex)分类误差(classificationerror)Pj是数据集合中类别j的相对比例.entropy=12信息熵(Entropy)什么情况下,熵最小?什么情况下,熵最大?entropy=-1log21-0log20=0目标变量为二元变量:entropy=-0.5log20.5–0.5log20.5=1IDAgeHas_jobOwn_homeCr

6、editClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldY

7、esNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的熵:Entropy(T)=−6/15*log2(6/15)−9/15*log2(9/15)=0.971Gini指数Pj是数据集合中类别j的相对比例.GINI最大=?GINI最小=?1-1/2(目标变量为二元变量)0IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5You

8、ngNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcell

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。