资源描述:
《《分类和预测》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、分类和预测什么是分类?什么是预测关于分类和预测的一些问题使用决策树进行分类用Excel来演示决策树用Matlab演示决策树1分类类标签属性的确定基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据(测试集)进行分类预测:对连续性字段进行建模和预测。典型应用信用评分目标市场定位医疗诊断治疗结果分析分类和预测2分类的两个步骤模型创建:描述一组预先确定的类每一条记录都属于一个预先定义的类别,我们使用类标签属性来标识类别。用于创建模型的数据集叫:训练集模型可以用分类规则,决策树,或者数学方程的形式来表达。模型使用:用创建的模型预测未来或者类别未知的记
2、录的类别估计模型的准确率使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较准确率是测试集中被正确分类的对象的比率测试集和训练集是独立的。3分类过程(1):模型创建训练集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’模型4分类过程(2):使用模型模型测试集未知数据(Jeff,Professor,4)Tenured?5有监督和无监督学习有监督学习(分类)训练集是带有类标签的新的数据是基于训练集进行分类的。无监督学习(聚类)训练集的类标签未知。给定一组测度(度量)或观察,然后寻找出训练集中存在类别或者聚类
3、。6分类和预测什么是分类?什么是预测关于分类和预测的一些问题使用决策树进行分类用Excel来演示决策树用Matlab演示决策树7关于分类和预测的一些问题(1):数据准备数据清洗对数据进行预处理,消除噪音,处理缺失值。相关性分析(属性选择)去掉不相关或者冗余的属性数据转换规范化或者对数据进行标准化8关于分类和预测的问题(2):评估分类方法预测准确率速度创建速度使用速度强壮性处理噪音和丢失值伸缩性(规模化)对磁盘驻留数据的处理能力可解释性:对模型的可理解程度。规则好坏的评价决策树的大小分类规则的简明性9分类和预测什么是分类?什么是预测关于分类和预测的一些问题使用决
4、策树进行分类用Excel来演示决策树用Matlab演示决策树10使用决策树归纳进行分类决策树一个类似流程图的树结构内部节点表示在一个属性上的测试每个分枝表示测试的结果叶子节点表示类或一个类分布决策树生成算法分成两个步骤树的创建初始时,所有的训练例子都在根节点根据被选属性,递归地对例子进行划分树的修剪识别并去掉那些反映噪音或者异常的分枝决策树使用:对未知样本进行分类对照决策树测试样本的属性值11训练集例子源自Quilan的ID3算法12输出:关于购买电脑的一棵决策树age?overcaststudent?creditrating?noyesfairexcelle
5、nt<=30>40nonoyesyesyes30..4013决策树算法基本算法(贪心算法)树的建立是自上而下递归的分而治之的方法初始时,所有的训练例子都在根节点属性都是类别字段(如果是连续的,将其离散化)所有例子根据所选属性递归地进行划分属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain,信息增益)停止划分的条件给定节点的所有样本都属于同一个类没有剩余的属性可以用于进一步划分样本分枝没有样本可划分了14属性选择的统计度量Informationgain(ID3/C4.5)所有属性都假定为类别型属性经过修改之后可以适用于连续型属性
6、Giniindex(IBMIntelligentMiner)(仅供参考)所有属性都假定为连续型属性对每个属性假定存在着几种可能的拆分值可能需要利用其他的工具,如聚类,获得可能的拆分值可以修改,以适用于类别型属性15信息增益信息增益是一种基于熵的测度信息增益可定义如下:已知:被分好类的一组例子E(或称样本)E的一个划分P={E1,...,En}ig(E,P)=entropy(E)-i=1,...,nentropy(Ei)*
7、Ei
8、/
9、E
10、16信息理论中的Shannon熵一般不确定性问題所包含“不确定”(uncertainty)的程度可以用数学來定量地描述吗?信
11、息理论:Shannon熵,1940年代末硬币反正面的不确定性均匀不均匀数学描述17Shannon熵的数学描述假设样本空間(Samplespace)X有n的基本事件(events),其基本事件wi的概率为pi,i=1,2,…,n。我們記之為。,i=1,2,…n表示不确定性18不确定性函数应满足的条件(i)对于固定的n,H是(p1,p2,…pn)的连续函数(ii)对于pi=1/n,H应是n的单调递增函数(iii)若某一试验分解成多个相继的试验,则原先的H值应为相应的各个H值的加权和(weightedsum)。19图示20Shannon熵定理:满足条件(i)、(ii
12、)和(iii)的函数H恰好具有形式其中