数据挖掘算法_分类数据挖掘ppt课件.ppt

数据挖掘算法_分类数据挖掘ppt课件.ppt

ID:58779970

大小:567.50 KB

页数:24页

时间:2020-10-03

数据挖掘算法_分类数据挖掘ppt课件.ppt_第1页
数据挖掘算法_分类数据挖掘ppt课件.ppt_第2页
数据挖掘算法_分类数据挖掘ppt课件.ppt_第3页
数据挖掘算法_分类数据挖掘ppt课件.ppt_第4页
数据挖掘算法_分类数据挖掘ppt课件.ppt_第5页
资源描述:

《数据挖掘算法_分类数据挖掘ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘算法——分类数据挖掘内容提要分类的概念及其应用分类挖掘的过程与方法基于决策树的分类挖掘方法ID3方法原理1分类(Classification)的概念分类是最常见的数据挖掘任务,也是人类众多规则之一。学科分类生物分类(瑞典植物学家CarlLinnaeus发明)分成界、门、纲、目、科、属、种。动物界,如有脊髓的动物被划分为脊椎动物门;附加的特征用于将脊椎动物进一步细分为鸟、哺乳动物、爬行动物纲;这些纲进一步细分,直到分类学的最底层。同一种的成员在很多方面存在相似性。如形态、繁殖等新物种的发现北京时间12月12日消息,美国《时代》

2、周刊周二评选出2009年度十大新物种,其中“博萨维毛鼠”位居榜首,迷你霸王龙、重达1吨的史前巨蟒均榜上有名。2分类(Classification)的概念分类包括考察一个新出现的对象的特征,并归类到已定义类中。在数据挖掘中,分类的对象通常是数据库表或文件中的记录分类工作首先要有一个清晰定义的类注意:类的个数是确定的,预先定义好的其次,要有一系列已分类实例3分类的应用分类实际上是先建立某种模型,即根据数据集的特点构造一个分类函数或分类模型。然后将其用于对未分类的数据进行分类,即此分类函数或模型能够把未知类别的样本映射到给定的类别之一。分

3、类与预测这是两种数据分析的形式,用來找出模型以描述数据或预测未來的变化趋势。常用于:信誉分析、目标市场、医疗诊断、性能预测等。如将信用卡申请者分为高、中、低风险发现欺诈性理赔申请将考生成绩分成优、良、中、差…分类银行信贷员需要分析资料,弄清楚哪些贷款申请是安全的,哪些是有风险的。故将贷款申请者分为“安全”和“有风险”两类。预测银行信贷员需要预测贷款给某个客户多少钱是安全的。4分类挖掘的方法要进行分类,就需要有一个分类的规则。分类的最终结果取决于分类规则分类的准确度取决于分类规则的优略。规则很容易用语言表达交流语言(英语、汉语、…)结

4、构化语言ifthen程序语言。如SQL在特定的类别中检索记录逻辑表达式分类规则也可以通过手工的方式辛苦地建立起来,也可以通过某种算法得到。5分类器的构造方法(1)统计方法常见的统计方法有knn算法kNN(kNearestNeighbors)假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类,kNN就是计算每个样本数据到待分类数据的距离,取与待分类数据最近的k各样本数据,那么这个k个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。基于事例的学习方法。6分类器的构造方法(2)机器学习

5、方法决策树法归纳法(3)神经网络方法神经网络方法主要是BP算法粗糙集(roughset)知识表示是产生式规则通常,一个分类模型需要在准确度(Accuracy)和透明度之间进行权衡。在某些分类应用中,准确是唯一重要的如邮件分类。通常不关心该模型是如何工作的。在另一些应用中,透明度就显得格外重要。如考试不及格等7分类模型的构造过程:两个阶段训练阶段在构造模型前,将数据集随机地分为训练集和测试数据集训练阶段使用训练数据集,通过分析训练数据集的属性来构造模型假设每个元组属于一个预定义类,由“类标号”属性来确定。训练集中的单个元组称为训练样本

6、,一个具体样本的形式可为:(V1,V2,...,Vn;c);其中Vi表示属性值,c表示类别。由于已提供每个训练样本的标号,故称有指导的学习通常分类模型以分类规则、判定树、数学公式等形式提供测试阶段用于评估分类模型的准确率。如果一个分类模型的准确率是可接受的,就可以用此模型来对其他未知类别的元组进行分类8分类的两个阶段a.模型训练阶段训练集b.使用模型分类阶段评估准确率(测试集)对类标号未知的新数据分类9资料应用过程举例训练样本婚姻年龄收入否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估X错误率为66.67%修改

7、模型3.使用模型10分类的规范化描述给定数据集D={t1,t2,…,tn},元组tiD,类的集合C={C1,……,Cm},分类问题定义为从数据集到类集合的映射f:DC,即数据集中的元组ti分配到某个类Cj中,有Cj={ti

8、f(ti)=Cj,1≤i≤n,且ti∈D}。11基于决策树的分类方法决策树是一种常用的、有力的分类工具。决策树是一种树形结构,决策树包含一系列规则。通过应用一些简单的规则,将大型记录集分割为小记录集,通过每一次连续分割,结果集中的成员彼此变得越来越相似。如生物的分类。“二十问题”游戏就是典型的决策树分类在游戏

9、中,对第一个问题的回答决定了后续的提问,前面的问题先创建具有许多成员的宽泛范畴,后续问题将宽泛范畴分割为越来越小的集合。如果精心挑选所问的问题,也许只需几个问题就足以得到正确答案。一般情况下,很少超过20个提问。12基于决策树的分类方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。