欢迎来到天天文库
浏览记录
ID:58401629
大小:244.50 KB
页数:24页
时间:2020-09-07
《决策树和决策规则.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、决策树和决策规则第7章本章目标分析解决分类问题的基于逻辑的方法的特性信息论基础ID3算法了解何时以及怎样用修剪方法降低决策树和复杂度总结用决策树和决策规则表示一个分类模型的局限性什么是分类?数据分类(dataclassfication)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。数据分类的两个步骤:第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类训练数据分类算法分类规则学习测
2、试数据待分类数据分类规则模型评估新数据分类7.1信息论基础信息论是C.E.Shannon四十年代末期,以客观概率信息为研究对象,从通信的信息传输问题中总结和开拓出来的理论。主要研究的问题:信源的描述,信息的定量度量、分析与计算信道的描述,信道传输的定量度量、分析与计算。信源、信道与通信系统之间的统计匹配,以及通信系统的优化—Shannon的三个编码定理。信息论诞生五十年来,至今,仍然是指导通信技术发展的理论基础,是创新通信体制的源泉。香农信息(概率信息)信息是事物运动状态或存在方式的不确定性的描述。在通信系统中形式上传输的是消息,但实质上传输的是信息信源信宿信道消息干扰或噪声
3、(发信者)(收信者)通信系统框图样本空间:某事物各种可能出现的不同状态,即所有可能选择的消息的集合。对于离散消息的集合,概率测度是对每一个可能选择的消息指定一个概率。一个样本空间和它的概率测度称为一个概率空间。表示:[X,P]在离散情况下:其中,P(ui)为选择符号ui作为消息的概率,称为先验概率信源数学模型后验概率:条件概率—接收端收到消息(符号)后而发送端发的是的概率。自信息:消息发生后所含有的信息量,反映了消息发生前的不确定性:信源熵定义:信源各个离散消息的自信息量的数学期望(即概率加权的统计平均值)为信源的平均信息量,一般称为信源的信息熵,也叫信源熵或香农熵,有时也称
4、为无条件熵或熵函数,简称熵。公式:熵函数的自变量是X,表示信源整体,实质上是无记忆信源平均不确定性的度量。单位:以2为底,比特/符号互信息后验熵:当接收到输出符号V=vj后,信源的平均不确定性,即输入符号U的信息度量条件熵:对后验熵在输出符号集V中求期望称为信道疑义度。表示在输出端收到全部输出符号V后,对于输入端的符号集U尚存有不确定性(有疑义),这是由于存在干扰(噪声)引起的。H(U
5、V)6、3算法决策树(DecisionTree)方法:决策树方法的起源是概念学习系统CLS,然后发展到由Quiulan研制ID3方法,然后到著名的C4.5算法,C4.5算法的一个优点是它能够处理连续属性。决策树又称为判定树,是运用于分类的一种树结构。其中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上面的结点是根结点。7.2ID3算法(续)ID3算法思想:任意选取一个属性作为决策树的根结点,然后就这个属性所有的取值创建树的分支;用这棵树来对训练数据集进行分类,如果一个叶结点的所有实例都属于同一类,则以该类为标记标识此叶结点;如果所有的7、叶结点都有类标记,则算法终止;否则,选取一个从该结点到根路径中没有出现过的属性为标记标识该结点,然后就这个属性所有的取值继续创建树的分支;重复算法步骤step2显然,不同的属性选取顺序将生成不同的决策树。因此,适当地选取属性将生成一棵简单的决策树。在ID3算法中,采用了一种基于信息的启发式的方法来决定如何选取属性。启发式方法选取具有最高信息增益的属性,也就是说,生成最少分支决策树的那个属性。7.2ID3算法(续)属性1属性2A70~79类180~89属性3类2假90~99类2属性260~69属性3类1真70~79属性3类1假90~99属性3类1真B属性270~79属性380~8、89属性390~99属性3类2真类1假类2真类1假7.2ID3算法(续)属性2属性1A80~89属性3类1真属性160~69属性3类1真70~79属性3类1属性1类2B属性1属性3属性3属性3类2类1A类2真类2假BCC假90~99A真B类1真属性3C类1假7.2ID3算法(续)表7-1的ID3算法实例计算:1)计算信息熵H(C)类别Ci出现概率P(Ci)=9、Ci10、/11、X12、,13、Ci14、为类别Ci的样本数,15、X16、为总的样本数17、C118、=9,19、C220、=5,21、X22、=14,代入上式算得H(C)=0.940bit2)
6、3算法决策树(DecisionTree)方法:决策树方法的起源是概念学习系统CLS,然后发展到由Quiulan研制ID3方法,然后到著名的C4.5算法,C4.5算法的一个优点是它能够处理连续属性。决策树又称为判定树,是运用于分类的一种树结构。其中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上面的结点是根结点。7.2ID3算法(续)ID3算法思想:任意选取一个属性作为决策树的根结点,然后就这个属性所有的取值创建树的分支;用这棵树来对训练数据集进行分类,如果一个叶结点的所有实例都属于同一类,则以该类为标记标识此叶结点;如果所有的
7、叶结点都有类标记,则算法终止;否则,选取一个从该结点到根路径中没有出现过的属性为标记标识该结点,然后就这个属性所有的取值继续创建树的分支;重复算法步骤step2显然,不同的属性选取顺序将生成不同的决策树。因此,适当地选取属性将生成一棵简单的决策树。在ID3算法中,采用了一种基于信息的启发式的方法来决定如何选取属性。启发式方法选取具有最高信息增益的属性,也就是说,生成最少分支决策树的那个属性。7.2ID3算法(续)属性1属性2A70~79类180~89属性3类2假90~99类2属性260~69属性3类1真70~79属性3类1假90~99属性3类1真B属性270~79属性380~
8、89属性390~99属性3类2真类1假类2真类1假7.2ID3算法(续)属性2属性1A80~89属性3类1真属性160~69属性3类1真70~79属性3类1属性1类2B属性1属性3属性3属性3类2类1A类2真类2假BCC假90~99A真B类1真属性3C类1假7.2ID3算法(续)表7-1的ID3算法实例计算:1)计算信息熵H(C)类别Ci出现概率P(Ci)=
9、Ci
10、/
11、X
12、,
13、Ci
14、为类别Ci的样本数,
15、X
16、为总的样本数
17、C1
18、=9,
19、C2
20、=5,
21、X
22、=14,代入上式算得H(C)=0.940bit2)
此文档下载收益归作者所有