数据挖掘7章分类和预测

数据挖掘7章分类和预测

ID:37289108

大小:320.60 KB

页数:37页

时间:2019-05-12

数据挖掘7章分类和预测_第1页
数据挖掘7章分类和预测_第2页
数据挖掘7章分类和预测_第3页
数据挖掘7章分类和预测_第4页
数据挖掘7章分类和预测_第5页
资源描述:

《数据挖掘7章分类和预测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类和预测(1)主讲人:蔡伟杰Caiweijie528@yahoo.comhttp://www.dmgroup.org.cn2021/8/61DataMining:ConceptsandTechniques第七章:分类和预测什么是分类?什么是预测关于分类和预测的一些问题使用决策树进行分类贝叶斯分类带回馈的分类基于关联规则的分类其他分类方法预测分类的准确率总结2021/8/62DataMining:ConceptsandTechniques分类预测种类字段基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类Prediction:对连续性字段进行建模和预

2、测。典型应用信用评分DirectMarketing医疗诊断…………分类和预测2021/8/63DataMining:ConceptsandTechniques分类的两个步骤模型创建:对一个类别已经确定的模型创建模型没一条记录都属于一个确定的类别,我们使用类标签属性记录类别。用于创建模型的数据集叫:训练集模型可以用分类规则,决策树,或者数学方程的形式来表达。模型使用:用创建的模型预测未来或者类别未知的记录估计模型的准确率使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较准确率:测试集和训练集是独立的。2021/8/64DataMining:ConceptsandTe

3、chniques分类过程:模型创建训练集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’模型2021/8/65DataMining:ConceptsandTechniques分类过程(2):使用模型模型测试集未知数据(Jeff,Professor,4)Tenured?2021/8/66DataMining:ConceptsandTechniques有监督和无监督学习有监督学习(分类)训练集是带有类标签的新的数据是基于训练集进行分类的。无监督学习(聚集)训练集是没有类标签的。提供一组属性,然后寻找出训练集中存在类别或者聚集。202

4、1/8/67DataMining:ConceptsandTechniques分类和预测什么是分类?什么是预测关于分类和预测的一些问题使用决策树进行分类贝叶斯分类带回馈的分类基于关联规则的分类其他分类方法预测分类的准确率总结2021/8/68DataMining:ConceptsandTechniques关于分类和预测的一些问题(1):数据准备数据清洗对数据进行预处理,消除噪音和丢失值。相关性分析(属性选择)去掉不相关或者冗余的属性数据转换泛化或者对数据进行标准化2021/8/69DataMining:ConceptsandTechniques关于分类和预测的问题(2):评估分

5、类方法预测准确率速度创建速度使用速度强壮性处理噪音和丢失值伸缩性对磁盘驻留数据的处理能力可解释性:对模型的可理解程度。规则好坏的评价决策树的大小分类规则的简明性2021/8/610DataMining:ConceptsandTechniques分类和预测什么是分类?什么是预测关于分类和预测的一些问题使用决策树进行分类贝叶斯分类带回馈的分类基于关联规则的分类其他分类方法预测分类的准确率总结2021/8/611DataMining:ConceptsandTechniques使用决策树进行分类决策树一个树性的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一

6、个分布决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到一个叶子节点2021/8/612DataMining:ConceptsandTechniques训练集ID3算法2021/8/613DataMining:ConceptsandTechniquesOutput:ADecisionTreefor“buys_computer”age?overcaststudent?creditrating?noyesfairexcellent<=30>40non

7、oyesyesyes30..402021/8/614DataMining:ConceptsandTechniques决策树算法基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain)停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割2021/8/615DataMining:ConceptsandTec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。