欢迎来到天天文库
浏览记录
ID:50109870
大小:1.19 MB
页数:36页
时间:2020-03-05
《数据挖掘概念与技术原书第2版第6章分类和预测.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、分类和预测第六章分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的模型分类:预测类对象的分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型比如预测空缺值,或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断分类VS.预测分类银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)我们需要构造一个分类器来预测类属编号,比如预测顾客属
2、类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析分类和预测---示例第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”来构造分类器。训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类训练元组:训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提供数据分类——一个两步过程(1)第二步,使用模型,对将来的或未知的对象进行分
3、类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分拟合”的情况数据分类——一个两步过程(2)第一步——建立模型训练数据集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分类规则第二步——用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?监督学习(用于分类)模型的学习在被告知每个
4、训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类监督学习VS.无监督学习数据预测也是一个两步的过程,类似于前面描述的数据分类对于预测,没有“类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称“预测属性”E.g.银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X)其中X是输入;y是输出,是一
5、个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集数据预测的两步过程通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声,处理空缺值,从而减少学习时的混乱相关分析数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确数据变换与归约数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例[0.0,1.0](ANN和设计距离的度量方法中常用)可以将数据概化到较
6、高层概念准备分类和预测的数据使用下列标准比较分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建分类器或预测器的能力可解释性:学习模型提供的理解和洞察的层次比较分类方法什么是决策树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点存放一个类编号用决策树归纳分类(1)age?student?creditrating?noyesfai
7、rexcellentyouthseniornonoyesyesyesMiddleaged决策树:Buys_computer使用决策树分类给定一个类标号未知的元组X,在决策树上测试元组的属性值,跟踪一条由根到叶节点的路径,叶节点存放该元组的类预测。决策树容易转换为分类规则决策树的生成由两个阶段组成决策树构建使用属性选择度量来选择将元组最好的划分为不同的类的属性递归的通过选定的属性,来划分样本(必须是离散值)树剪枝决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝试图识别并剪去这种分枝
8、,以提高对未知数据分类的准确性用决策树归纳分类(2)输入数据划分D是训练元组和对应类标号的集合attribute_list,候选属性的集合Attribute_selection_method,指定选择属性的启发性过程算法步骤树以代表训练样本的单个节点(N)开始如果样本都在同一个类,则该节点成为树叶,并用该类标记否则,算法调用Attribute_selection_method,选择能够最好的将样本分类的属性;确定“分裂准则”,指出“分裂点”或“分裂子集”。决策树归纳策略(1)P189图6-3对测
此文档下载收益归作者所有