欢迎来到天天文库
浏览记录
ID:21486875
大小:11.20 MB
页数:199页
时间:2018-10-18
《第七章 分类与预测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、《数据挖掘》主讲:王名扬信息与计算机工程学院2引言—要挖掘知识的类型概念描述:特征化和比较;关联规则;分类/预测;聚类分析;其他的数据挖掘任务。引言根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类?动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是爬行动物猪大04否是爬行动物牛大04否是爬行动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类动物A大02是无?动物B中22否是?十月01,20214分类是数据挖掘中重要的任务分类的目的是学会一个分类器(分类函数或模型
2、),该分类器能把待分类的数据映射到给定的类别中。分类可用于预测。从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。十月01,20215分类方法的类型从使用的主要技术上看,可以把分类方法归结为以下几种类型:基于距离的分类方法决策树分类方法贝叶斯分类方法。本章主要围绕这几种分类方法展开。第6章分类与预测6.1分类与预测的基本知识6.2基于距离的分类算法6.3决策树分类方法6.4贝叶斯分类方法6.5规则归纳方法*第6章6.1分类和预测的基本知识什么是分类?预测?分类和预测的基本问题1.分类?预测?10基本概念分类和预
3、测是两种数据分析的形式,可用于提取描述重要数据类的模型或预测未来的数据趋势:分类(classification):用于预测数据对象的分类标号(或离散值),如,通过构造分类模型对银行贷款进行风险评估(安全或危险);预测(predication):用于预测数据对象的连续取值,如,建立预测模型利用顾客收入与职业(参数)预测其可能用于购买计算机设备的支出大小。11数据分类过程数据分类是一个两步的过程:1)建立分类模型:机器学习过程,通过某种分类算法对训练集进行训练,得到分类模型;“有指导的学习”、“有监督的学习”假定每个元组属于一个预定义的类,
4、由一个称为类标号属性的属性确定;训练数据集:为建立分类模型而被分析的数据元组。12分类过程的第一步:学习建模13数据分类过程数据分类是一个两步的过程:2)使用模型进行分类:测试数据集:用于评估模型的预测准确率。模型在测试集上的准确率是正确被模型分类的测试样本所占的百分比。如认为模型的准确率可以接受,就可以用它来对类标号未知的数据元组或对象进行分类。14分类过程的第二步:分类测试15分类过程示意图有指导的学习VS.无指导的学习有指导的学习(用于分类)训练样本的类标号已知;新数据使用训练数据集中得到的规则进行分类无指导的学习(用于聚类)训练
5、样本的类标号未知;通过一系列的度量、观察,试图确立数据中的类或聚类的存在17数据预测预测:构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间与分类区别:二者是两类主要的预测问题。分类是预测离散或标号值;预测是预测连续或有序值;观点:用预测法预测类标号为分类;用预测法预测连续值(一般用回归法)为预测。18示例背景:假定已建立AllElectronics公司的邮寄清单数据库。邮寄清单用于分发介绍新产品和降价信息材料。数据库描述顾客的属性,包括姓名、年龄、收入、职业和信誉度,并按照顾客是否在该公司购买计算机进行分类。19示
6、例分类模型:假定新的顾客添加到数据库中,由于向每位顾客分发促销材料费用很高,因此,可以根据数据库中已有顾客信息构建分类模型,用以预测需向哪些顾客分发材料。预测模型:假定想预测在一个财政年度,一个顾客将在AllElectronics进行的主要的购买的数量,则可以构建一个预测模型。2.分类和预测的基本问题?21问题(1):数据准备1)准备分类和预测的数据:数据的预处理数据清理:噪声(平滑技术);空缺值(统计手段)相关性分析(特征选择):删除不相关和冗余属性,如银行贷款申请时填写的星期数,可能与贷款是否申请成功无关;数据变换:数据离散化(数据
7、概化):如属性“收入”的数值就可以被离散化为若干区间,如低、中等和高;数据规范化:将给定属性的值按比例缩放至较小的区间,如[0,1]。22问题(2):评估分类模型2)评估方法:对用于分类或预测的方法或模型进行评估预测的准确率:模型正确预测未知对象类别或数值的能力;速度:1)建立模型的时间;2)使用模型的时间强壮性(鲁棒性):处理噪声和空缺值的能力;可伸缩(扩展)性:处理大型数据及构造模型的能力;可理解性:模型的可理解能力;规则的优越性:1)判定树的大小;2)分类规则的简洁性。6.2基于距离的分类算法基本思想?几种常见的距离分类算法?1.
8、基于距离分类的基本思想?十月01,202125基于距离的分类算法的思路定义:给定一个数据库D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti
此文档下载收益归作者所有