数据挖掘课件--分类方法.ppt

数据挖掘课件--分类方法.ppt

ID:55649138

大小:424.50 KB

页数:57页

时间:2020-05-22

数据挖掘课件--分类方法.ppt_第1页
数据挖掘课件--分类方法.ppt_第2页
数据挖掘课件--分类方法.ppt_第3页
数据挖掘课件--分类方法.ppt_第4页
数据挖掘课件--分类方法.ppt_第5页
资源描述:

《数据挖掘课件--分类方法.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、第四章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类规则归纳与分类有关的问题分类是数据挖掘中重要的任务分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。分类器的构造依据的方法很广泛:统计方法:包括贝叶斯法和非参数法等。机器学习方法:包括决策树法和规则归纳法。神经网络方法。其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。分类方法的类型从使用的主

2、要技术上看,可以把分类方法归结为四种类型:基于距离的分类方法决策树分类方法贝叶斯分类方法规则归纳方法。本章将择选一些有代表性的方法和算法来介绍这四类分类方法。分类问题的描述定义4-1给定一个数据库D={t1,t2,…,tn}和一组类C={C1,…,Cm},分类问题是去确定一个映射f:DC,使得每个元组ti被分配到一个类中。一个类Cj包含映射到该类中的所有元组,即Cj={ti

3、f(ti)=Cj,1≤i≤n,而且tiD}。例如,把学生的百分制分数分成A、B、C、D、F五类,就是一个分类问题:D是包含百分制分数在内的学生信息,C={A、B、C、D、F}。解决分类问题的关键是构造一个合

4、适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。数据分类的两个步骤1.建立一个模型,描述预定的数据类集或概念集数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。2.使用模型进行分类首先评估模型(分类法)的预测准确率。如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分

5、类方法贝叶斯分类规则归纳与分类有关的问题基于距离的分类算法的思路定义4-2给定一个数据库D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj:sim(ti,Cj)>=sim(ti,Cl),Cl∈C,Cl≠Cj,其中sim(ti,Cj)被称为相似性。在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。基于距离

6、的分类算法的一般性描述算法4-1通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。算法4-1基于距离的分类算法输入:每个类的中心C1,…,Cm;待分类的元组t。输出:输出类别c。(1)dist=∞;//距离初始化(2)FORi:=1tomDO(3)IFdis(ci,t)

7、离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。算法4-2K-近邻分类算法输入:训练数据T;近邻数目K;待分类的元组t。输出:输出类别c。(1)N=;(2)FOReachd∈TDOBEGIN(3)IF

8、N

9、≤KTHEN(4)N=N∪{d};(5)ELSE(6)IFu∈Nsuchthatsim(t,u)〈sim(t,d)THENBEGIN(7)N=N-{u};(8)N=N∪{d};(9)END(10)END(11)c=classtowhichthemostu∈N.KNN的例子姓名性别身高(米)类别Kristina女1.6矮

10、Jim男2高Maggie女1.9中等Martha女1.88中等Stephanie女1.7矮Bob男1.85中等Kathy女1.6矮Dave男1.7矮Worth男2.2高Steven男2.1高Debbie女1.8中等Todd男1.95中等Kim女1.9中等Amy女1.8中等Wynette女1.75中等“高度”用于计算距离,K=5,对分类。对T前K=5个记录,N={、<

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。