欢迎来到天天文库
浏览记录
ID:56433608
大小:853.50 KB
页数:159页
时间:2020-06-18
《朴素贝叶斯分类算法.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第3章分类与回归3.1概述3.2决策树分类方法3.3贝叶斯分类方法3.4K-最近邻分类方法3.5神经网络分类方法3.6支持向量机3.7组合学习方法3.8不平衡数据分类问题3.9分类模型的评价3.10回归方法3.1概述分类的定义分类是数据挖掘中的一种主要分析手段分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容检查出垃圾邮件根据核磁共振的结果区分肿瘤是恶性还是良性的根据星系的形状对它们进行分类划分出交易是合法或欺诈将新闻分类金融、天气、娱乐体育等分类与回归的区别分类和回归都有预测的功能,但是
2、:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值;分类与回归的例子:预测未来某银行客户会流失或不流失,这是分类任务;预测某商场未来一年的总营业额,这是回归任务。分类的步骤分类的过程描述如下:1)首先将数据集划分为2部分:训练集和测试集。2)第一步:对训练集学习,构建分类模型。模型可以是决策树或分类规则等形式。3)第二步:用建好的分类模型对测试集分类评估该分类模型的分类准确度及其它性能。4)最后,使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。分类与聚类的区别分类因为使用了类标号属性,属于有监督的学习方法聚类,事先没有使用任何类
3、标号信息,属于无监督的学习方法分类的应用目前分类与回归方法已被广泛应用于各行各业,如:股票预测信用评估医疗诊断市场营销图像分类等……数据挖掘中分类算法归类分类模型的学习方法大体上主要有以下几类基于决策树的分类方法贝叶斯分类方法K-最近邻分类方法神经网络方法支持向量机方法集成学习方法……回归分析回归分析可以对预测变量和响应变量之间的联系建模。在数据挖掘环境下,预测变量是描述样本的感兴趣的属性,一般预测变量的值是已知的,响应变量的值是我们要预测的。当响应变量和所有预测变量都是连续值时,回归分析是一个好的选择。回归分析包括:线性回归、非线性回归以及逻辑回归等。
4、3.2决策树分类方法3.2.1决策树的基本概念3.2.1决策树的基本概念决策树(DecisionTree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。其中:决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。叶节点存放某个类标号值,表示一种可能的分类结果。分支表示某个决策节点的不同取值。决策树可以用来对未知样本进行分类,分类过程如下:从决策树的根节点开始,从上往下沿着某个分支往下搜索,直到叶结点,以叶结点的类标号值作为该未知样本所属类标号。典型决策树决策树分类例题演示1某银行训练数据下表,请利
5、用决策树分类方法预测类标号未知的新样本{“是”,“5000~10000”,“<2”,“是”,?},其类标号属性为流失或不流失.是否定期存款数月业务频率是否投资是否流失"否""10000~20000""5~10""不是""不流失""否""5000~10000"">10""是""不流失""否""20000~30000""<2""不是""流失"……………首先,建立决策树然后,使用决策树对未知新样本分类:未知样本:{“是”,“5000~10000”,“<2”,“是”,?}决策树分类例题演示2categoricalcategoricalcontinuousclas
6、s训练数据集决策树模型有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K应用模型测试数据有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据Startfromtherootoftree.有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K测试数据应用模型测试数据有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K应用模型测试
7、数据测试数据有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K应用模型测试数据测试数据有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K应用模型测试数据测试数据有房者婚姻状态年收入YESNONONOYesNoMarriedSingle,Divorced<80K>80K分配拖欠房款属性为:“No”应用模型测试数据测试数据3.2.2决策树的构建决策树在构建过程中需重点解决2个问题:(1)如何选择合适的属性作为决策树的节点去划分训练样本;(2)如
8、何在适当位置停止划分过程,从而得到大小合适的决策树。1.决策树的属性选择虽然可以
此文档下载收益归作者所有