资源描述:
《决策树和模型评估课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、DataMining第四章分类:基本概念、决策树和模型评估4.1预备知识4.2解决分类问题的一般方法分类例子预测癌细胞是良性还是恶性将信用卡交易分为合法和欺诈……分类:定义给定一个记录集每个记录包含一个属性集,通常最后一个属性是该记录的分类(class)属性.目标:找到一个模型(从其余属性值到分类属性的转换函数),实现对未知分类的记录进行尽可能精确地分类。通常,将给定的数据集分为训练集(trainingset)和检验集(testset)。训练集用来创建模型,检验集用来验证模型的有效性。分类性能度量:预测的类类=1
2、类=0实际的数类=1f11f10类=0f01f00分类过程训练集检验集学习模型学习模型学习算法模型分类技术基于决策树的方法DecisionTreebasedMethods基于规则的方法Rule-basedMethods基于记忆的推理Memorybasedreasoning神经网络NeuralNetworks朴素贝叶斯和贝叶斯信念网络NaïveBayesandBayesianBeliefNetworks支持向量机SupportVectorMachines决策树定义决策树是由结点和有向边组成的层次结构。树中包含三种结
3、点:根结点内部结点叶结点非终结点。包含属性测试条件,用于分开不同特性的记录每个叶结点都赋予一个类标号决策树例1二元属性分类属性连续属性分类标号有房产婚姻状况收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K属性划分训练数据模型:决策树决策树例2MarStRefundTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K对于相同的数据,能构造多种不同的决策树决策树应用过程:使用模型测试数据-1RefundMarStTaxIncY
4、ESNONONOYesNoMarriedSingle,Divorced<80K>80K检验数据从树根开始使用模型测试数据-2RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KTestData使用模型测试数据-3RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KTestData使用模型测试数据-4RefundMarStTaxIncYESNONONOYesNoMarriedS
5、ingle,Divorced<80K>80KTestData使用模型测试数据-5RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KTestData使用模型测试数据-6RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KTestData将Cheat赋值为“No”决策树构造算法多种算法:Hunt算法(最早方法之一)CART(classificationandregression
6、trees)ID3,C4.5SLIQ,SPRINTHunt算法结构Hunt算法的思想是将训练记录相继划分成“较纯”的子集,以递归方式建立决策树。假设t表示结点,Dt表示与结点t相关联的训练记录集,y={y1,y2,…,yc}是类标号Hunt算法的递归定义:如果Dt中所有记录都属于同一个类yt,则t就是叶子节点,并用yt标号如果Dt是一个空集,那么t就是叶子节点,其标号为其父结点上训练记录中的多数类Dt?如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成若干个子集。并对每个子集进行递归分类。例P9
7、3~P95预测拖欠银行贷款的贷款者如何生成决策树?贪婪策略.每次选择属性划分条件时,选择划分数据的最优标准.决策树归纳的设计问题问题1:如何分裂记录?1.1定义属性测试条件——给不同类型的属性指定测试条件的方法1.2找到最好的划分方法——对每种测试条件进行评估测量问题2:何时停止分裂过程?决策树归纳的设计问题1:1.1定义属性测试条件4.4.3表示属性测试条件的方法根据属性类型标称型Nominal序数型Ordinal连续型Continuous按划分路数二元划分2-waysplit多路划分Multi-wayspli
8、t标称属性的划分方法:(数据集见P122习题2)多路划分法:划分成几个不同的值——输出数取决于该属性不同属性值的个数.二分法:划分为两个不同的值.(需要找到最佳的划分方法)CarTypeFamilySportsLuxuryCarType{Family,Luxury}{Sports}CarType{Sports,Luxury}{Family}OR多路划分法二分法(分组必须