数据挖掘原理、算法及应用第4章分类和预测

数据挖掘原理、算法及应用第4章分类和预测

ID:43968386

大小:5.24 MB

页数:215页

时间:2019-10-17

数据挖掘原理、算法及应用第4章分类和预测_第1页
数据挖掘原理、算法及应用第4章分类和预测_第2页
数据挖掘原理、算法及应用第4章分类和预测_第3页
数据挖掘原理、算法及应用第4章分类和预测_第4页
数据挖掘原理、算法及应用第4章分类和预测_第5页
资源描述:

《数据挖掘原理、算法及应用第4章分类和预测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第4章分类和预测4.1分类和预测的基本概念和步骤4.2基于相似性的分类算法4.3决策树分类算法4.4贝叶斯分类算法4.5人工神经网络(ANN)4.6支持向量机4.7预测4.8预测和分类中的准确率、误差的度量4.9评估分类器或预测器的准确率4.10小结4.1分类和预测的基本概念和步骤银行贷款员需要分析数据,搞清楚哪些贷款申请者是“安全的”,银行的“风险”是什么。AllElectronics的市场经理需要数据分析,以便帮助他猜测具有某些特征的顾客是否会购买一台新的计算机。医学研究者希望分析乳腺癌数据,预测病人

2、应当接受三种具体治疗方案中的哪一种。数据分类是一个两步过程,如图4-1所示的贷款应用数据,第一步,建立描述预先定义的数据类或概念集的分类器。图4-1数据分类过程由于提供了每个训练元组的类标号,这一步也称做监督学习(SupervisedLearning),即分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行。它不同于无监督学习(UnsupervisedLearning)(或称聚类),每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。在第二步(如图4-1(b)所示),使用模型进

3、行分类。首先评估分类器的预测准确率。如果使用训练集来测量分类器的准确率,则评估可能是乐观的,因为分类器趋向于过分拟合(overfit)该数据(即在学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常点不在一般数据集中出现)。4.2基于相似性的分类算法基于相似性的分类算法的思路比较简单直观。假定数据库中的每个元组ti为数值向量,每个类用一个典型数值向量来表示,则能通过分配每个元组到它最相似的类来实现分类。定义4.1给定一个数据库D={t1,t2,…,tn}和一组类C={C1,C2,…,Cm}。对于任

4、意的元组ti={ti1,ti2,…,tik}∈如果存在一个Ci∈C,使得:(4.1)则ti被分配到类Ci中,其中sim(ti,Ci)称为相似性度量函数。算法4.1基于相似性的分类算法(每个类Ci对应一个中心点)。   输入:每个类的中心C1,C2,…,Cm;待分类的元组t。   输出:输出类别c。算法4.2基于相似性的分类算法(每个类Ci对应多个中心点)。   输入:训练样本数据D={t1,t2,…,tn}和训练样本对应类属性值C={C1,C2,…,Cm};待分类的元组t。   输出:输出类别c。算法4.

5、3k-最临近算法。  输入:训练数据T;最临近数目k;待分类的元组t输出:输出类别c4.3决策树分类算法从数据中生成分类器的一个特别有效的方法是生成一个决策树(DecisionTree)。决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以,从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一

6、组析取表达式规则。图4-2buys_computer的决策树示意图4.3.1决策树基本算法概述1.决策树生成算法决策树生成算法的输入是一组带有类别标记的例子,决策树是一棵二叉树或多叉树。二叉树的内部结点(非叶子结点)一般表示为一个逻辑判断,如形式为(ai=vi)的逻辑判断,其中ai是属性,vi是该属性的某个属性值。树的边是逻辑判 断的分支结果。多叉树的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶子结点都是类别标记。算法4.4Generate_decision_tree(决策树生成

7、算法)。   输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list。   输出:一棵决策树(由给定的训练数据产生一棵决策树)。(1)创建结点N;(2)IFsamples都在同一个类CTHEN返回N作为叶结点,以类C标记,并且Return;(3)IFattribute_list为空THEN返回N作为叶结点,标记为samples中最普通的类,并且Return;//多数表决(4)选择attribute_list中具有最高信息增益的属性test_attribute;(5)标记

8、结点N为test_attribute;(6)FOReachtest_attribute中的已知值ai,由结点N长出一个条件为test_attribute=ai的分枝;(7)设si是samples中test_attribute=ai的样本的集合;//一个划分(8)IFsi为空THEN加上一个树叶,标记为samples中最普通的类;(9)ELSE加上一个由Generate_decision_tree(si,attribute_li

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。