数据挖掘导论,翻译PPT,第二部分ppt课件.ppt

数据挖掘导论,翻译PPT,第二部分ppt课件.ppt

ID:58779973

大小:2.87 MB

页数:159页

时间:2020-10-03

数据挖掘导论,翻译PPT,第二部分ppt课件.ppt_第1页
数据挖掘导论,翻译PPT,第二部分ppt课件.ppt_第2页
数据挖掘导论,翻译PPT,第二部分ppt课件.ppt_第3页
数据挖掘导论,翻译PPT,第二部分ppt课件.ppt_第4页
数据挖掘导论,翻译PPT,第二部分ppt课件.ppt_第5页
资源描述:

《数据挖掘导论,翻译PPT,第二部分ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘教程 第二部分核心课题主讲:黄剑1©浙江万里学院数据挖掘提纲第一部分概述相关概念数据挖掘技术第二部分分类聚类关联规则第三部分Web挖掘空间数据挖掘时序数据挖掘2©浙江万里学院分类分类问题概述分类技术基于统计的算法基于距离的算法基于决策树的算法基于规则的算法基于神经网络的算法目标:提供一个分类问题的概述并介绍几种常见分类问题的算法3©浙江万里学院分类问题给定一个由元组组成的数据库D={t1,t2,…,tn}和一个类别集合C={C1,…,Cm},分类问题是指定义一个映射f:DgC,其中每个元组ti被分配到一个类中.一个分类问题

2、的所有类别实际上是等价类.预测是一种特殊的分类,连续时可看成无限多类,离散时就是分类了.4©浙江万里学院分类举例老师根据分数将学生分类为A,B,C,D,和F.识别蘑菇是否有毒.预测何时何地会发洪水.识别个人的信用风险.语音识别模式识别5©浙江万里学院等级分类x>=90等级=A.80<=x<90等级=B.70<=x<80等级=C.60<=x<70等级=D.x<50等级=F.>=90<90x>=80<80x>=70<70xFBA>=60<50xCD6©浙江万里学院字母识别一个字母由五个组成部分组成:LetterCLetterELette

3、rALetterDLetterFLetterB7©浙江万里学院分类方法步骤:通过对训练集进行计算产生一个特定的模型。训练数据作为输入,以计算得到的模型作为输出将产生的模型应用于目标数据库中对元组进行分类.类别必须预先定义最常用的算法包括决策树,神经网络,及基于距离,统计等算法.8©浙江万里学院定义类别分割基于距离9©浙江万里学院分类中的问题缺失数据忽略利用假定值来替换性能度量分类精度混淆矩阵OC曲线10©浙江万里学院身高数据例子11©浙江万里学院分类表现真正例真反例假正例假反例12©浙江万里学院混淆矩阵例子利用两个输出得到的矩阵13

4、©浙江万里学院OC曲线14©浙江万里学院回归根据输入值估计一个输出值确定最佳的回归系数c0,c1,…,cn.假设出一个误差:y=c0+c1x1+…+cnxn+e可以利用均方差函数估计线性回归模型拟合实际数据的精度:15©浙江万里学院线性拟合误差16©浙江万里学院回归用于分类分割:利用回归函数,将空间划分成一些区域,每一个类对应一个区域.预测:通过回归,产生一个可以用于预测类别值的线性公示17©浙江万里学院分割18©浙江万里学院预测19©浙江万里学院基于距离法的分类将更接近或更相似的成员映射到同一个类别当中去必须确定项之间或者类之间的

5、距离.类别描述质心:中心值.中心点:代表点.各个元组算法:KNN20©浙江万里学院K最近邻(KNN):训练集包括了类别标签.进一步考虑训练集中K个与新元组相距最近的元组.新元组将被分配到一个包含了K个最近元组中最多元组的那一类.O(q)是该问题的时间复杂度.(q训练集中元组的个数.)21©浙江万里学院KNN22©浙江万里学院KNN算法23©浙江万里学院基于决策树的算法基于区域划分:将搜索空间划分为一些矩形区域.根据元组落入的区域对元组进行分类.大部分研究集中在如果有效的构建树:决策树归纳内部结点标记为一个属性,属性值为弧算法:ID3

6、,C4.5,CART24©浙江万里学院决策树给定:D={t1,…,tn},其中ti=数据库模式包含下列属性{A1,A2,…,Ah}类别集合C={C1,….,Cm}决策树或分类数是具有下列属性的树每个内部结点都标记一个属性,Ai每个弧都被标记一个谓词,这个谓词可应用于相应的父结点的属性每个叶结点都被标记一个类,Cj25©浙江万里学院DT算法26©浙江万里学院决策树划分区域GenderHeightMF27©浙江万里学院决策树对比平衡树深的树28©浙江万里学院决策树的问题选择分裂属性分裂属性次序分裂树的结构停止准则训

7、练数据剪枝29©浙江万里学院决策树往往基于信息论构建So30©浙江万里学院信息31©浙江万里学院信息/熵给定概率p1,p2,..,ps,之和为1,熵的定义为:熵是数据不确定性、突发性或随机性程度的度量.分类的目标没有不确定性熵为032©浙江万里学院熵log(1/p)H(p,1-p)33©浙江万里学院ID3基于信息论构建决策树的ID3技术试图使比较的期望数最小化。ID3利用最高信息增益属性作为分裂属性:34©浙江万里学院ID3例子初始集合的熵:4/15log(15/4)+8/15log(15/8)+3/15log(15/3)=0.43

8、84性别作为分裂属性的信息增益:女:3/9log(9/3)+6/9log(9/6)=0.2764男:1/6(log6/1)+2/6log(6/2)+3/6log(6/3)=0.4392加权和:(9/15)(0.2764)+(6/15)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。