决策树基本概念教材.ppt

决策树基本概念教材.ppt

ID:51954655

大小:337.50 KB

页数:43页

时间:2020-03-25

决策树基本概念教材.ppt_第1页
决策树基本概念教材.ppt_第2页
决策树基本概念教材.ppt_第3页
决策树基本概念教材.ppt_第4页
决策树基本概念教材.ppt_第5页
资源描述:

《决策树基本概念教材.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、1分类:基本概念分类:基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结什么是分类?分类,分类器银行贷款员需要分析数据,以便搞清楚哪些贷款申请者是“安全的”;医学研究人员分析癌症数据,以便选择治疗方案数据分析任务都是分类,都需要构造一个分类器来预测类标号数值预测,预测器销售经理希望预测一位给定的顾客在双11的一次购物期间将花多少钱数据分析任务就是数值预测,所构造的模型(预测器)预测一个连续值函数或有序值,而不是类标号2分类预测类标号(离散的或标称的)基于训练集和类标号构建分类器,并对新的数据进行分类数值预测所构造的模型预测一个连续值函数,而

2、不是类标号典型应用信用卡/贷款批准:医疗诊断:肿瘤是良性的还是恶性的欺诈检测:一次交易是否是欺诈的网页分类:属于哪一类预测问题:分类与数值预测3分类—一个两阶段过程两阶段:学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)分类模型构建(学习阶段):描述预先定义的类假设每个元组都属于一个预先定义的类,由类标号属性确定,类标号属性是离散值的和无序的用于模型构建的元组集合称为训练集模型用分类规则,决策树,或数学公式表示模型使用(分类阶段):用于分类未知对象评估模型的准确性检验样本的已知标签与模型的分类结果比较准确率是被模型正确分类的检验样本所占

3、的百分比检验集是独立于训练集的(否则过分拟合)如果准确性是可接受的,则使用模型来分类新的数据4监督和无监督学习监督学习(分类)监督:提供了每个训练元组的类标号即分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行的新的数据基于训练集被分类无监督学习(聚类)每个训练元组的类标号是未知的要学习的类的个数或集合也可能事先不知道5阶段(1):模型构建训练数据分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分类器(模型)学习:用分类算法分析训练数据6阶段(2):使用模型预测分类器检验数据新数据(Jeff,Pro

4、fessor,4)Tenured?分类:检验数据用于评估分类规则的准确率78分类:基本概念分类:基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结决策树从有类标号的训练元组中学习决策树树结构每个内部结点(非树叶结点)表示在一个属性上的测试每个分枝代表该测试的一个输出每个树叶结点存放一个类标号树的最顶层结点是根结点如何使用决策树分类?给定一个类标号未知的元组X,在决策树上测试该元组的属性值。跟踪一条由根到叶结点的路径,该叶结点就存放着该元组的类预测。9决策树归纳:一个例子age?overcaststudent?creditrating?<=3

5、0>40noyesyesyes31..40nofairexcellentyesno训练数据集:Buys_computer决策树:10决策树归纳算法基础算法(贪心算法)决策树以自顶向下递归的分治方式构造从训练元组集和它们相关联的类标号开始构造决策树所有属性是具有类别的(如果是连续数值型的,则它们需要事先离散化)基于选择的属性对元组进行递归划分测试属性基于统计学度量来选择(例如,信息增益)停止划分的条件给定结点的所有元组都属于同一个类没有剩余属性可以用来进一步划分元组给定的分枝没有元组11算法基本策略三个参数:D为数据分区,开始时,它是训练元组和它们相应类标

6、号的完全集。参数attribute_list是描述元组属性的列表。参数Attribute_selection_method用来选择可以按类“最好地”区分给定元组的属性,该过程使用一种属性选择度量(信息增益或基尼指数)。树从单个结点N开始,N代表D中的训练元组如果D中的元组都为同一类,则结点N变成树叶,并用该类标记它否则,算法调用Attribute_selection_method确定分裂准则。分裂准则指定分裂属性,并且也指出分裂点或分裂子集对分裂准则的每个输出,由结点N生长一个分枝。根据分裂属性A的类型,有三种可能的情况A是离散值的:结点N的测试输出直接

7、对应于A的已知值A是连续值的:结点N的测试有两个可能的输出,分别对应于条件A<=split_point和A>split_point,其中split_point是分裂点A是离散值并且必须产生二叉树:在结点N的测试形如“A∈SA?”,其中SA是A的分裂子集算法:Generate_decision_tree。由数据分区D中的训练元组产生决策树。输入:数据分区D,训练元组和他们对应类标号的集合attribute_list,候选属性的集合。Attribute_selection_method,一个确定“最好地”划分数据元组为个体类的分裂准则的过程。这个准则由分裂属

8、性(splitting_attribute)和分裂点或划分子集组成。输出:一棵决

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。