数据挖掘算法培训讲义-分类和预测

数据挖掘算法培训讲义-分类和预测

ID:21381650

大小:497.50 KB

页数:67页

时间:2018-10-18

数据挖掘算法培训讲义-分类和预测_第1页
数据挖掘算法培训讲义-分类和预测_第2页
数据挖掘算法培训讲义-分类和预测_第3页
数据挖掘算法培训讲义-分类和预测_第4页
数据挖掘算法培训讲义-分类和预测_第5页
资源描述:

《数据挖掘算法培训讲义-分类和预测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、DM算法-1分类和预测出处:《数据挖掘:概念与技术》©JiaweiHanandMichelineKamber2021/7/101数据挖掘:概念与技术(翻译张磊)DM算法-1分类和预测什么是分类?什么是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2021/7/102数据挖掘:概念与技术(翻译张磊)分类:预测分类标签基于训练集和分类属性值(分类标签)构造分类模型,然后用该模型分类新数据预测:对连续函数建模,即预测未知的或缺失的数据典型应用信用审核目标营销医疗诊断治疗效果

2、分析分类与预测2021/7/103数据挖掘:概念与技术(翻译张磊)分类—两步骤过程建立一个模型:描述预定的数据类或概念集假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类用于创建模型的元组集合:训练集模型可以用分类规则,决策树,或数学公式来表达使用模型:对未知(分类标签的)对象进行分类模型估计准确率已知测试样本的分类标签,将其和模型的分类结果比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集应独立于训练集,否则可能导致过度拟合2021/7/104数据挖掘:概念与技术(翻译张磊)分类过程(1):模型创建训练数据分类算法IF

3、rank=‘professor’ORyears>6THENtenured=‘yes’分类器(模型)2021/7/105数据挖掘:概念与技术(翻译张磊)分类过程(2):使用模型来预测分类器测试数据新数据(Jeff,Professor,4)Tenured?2021/7/106数据挖掘:概念与技术(翻译张磊)有指导的vs.无指导的学习有指导的学习(分类)指导:模型的学习在被告知每个训练样本属于哪个类的“指导”下进行基于训练集对新数据进行分类无指导的学习(聚类)训练数据的类标签是未知的给定一组样本,试图建立分类或数据的聚类2021/7/107数据挖掘:概念与技

4、术(翻译张磊)DM算法-1分类和预测什么是分类?什么是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2021/7/108数据挖掘:概念与技术(翻译张磊)分类与预测相关问题(1):数据准备数据清洗数据准备是为了减少噪声数据,并处理缺失值相关分析(特征选取)删除无关属性和冗余属性数据转换数据的泛化和归一化2021/7/109数据挖掘:概念与技术(翻译张磊)分类与预测的相关问题(2):分类方法的评估预测准确率速度和扩展能力创建模型所需时间应用模型所需时间健壮性可以处理噪声和

5、缺失值扩展能力在大型数据库上的处理能力可解释性模型能否增强用户对数据的理解和洞察力是否良好的规则决策树的大小分类规则的简洁程度2021/7/1010数据挖掘:概念与技术(翻译张磊)DM算法-1分类和预测什么是分类?什么是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2021/7/1011数据挖掘:概念与技术(翻译张磊)通过决策树归纳进行分类决策树类似于流程图的树型结构内部节点代表对某个属性的一次测试分支代表测试的输出结果叶节点代表分类标签或分布决策树的生成包括两个阶段

6、树的创建首先,所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支应用决策树:对未知样本进行分类在决策树上测试样本的各个属性值2021/7/1012数据挖掘:概念与技术(翻译张磊)训练数据集接下来是Quinlan’sID3算法示例2021/7/1013数据挖掘:概念与技术(翻译张磊)输出:预测“是否会购买计算机”的决策树age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..402021/7/1014数据挖掘:概念

7、与技术(翻译张磊)决策树归纳算法基本算法(贪婪算法)树的创建是一种自顶向下递归的分而治之方法首先,所有训练样本都位于根节点属性都是类别型变量(若为连续值,则需先离散化)基于选择的属性,对样本进行递归划分通过启发式搜索或统计量来选取测试属性(例如,信息增益)停止划分的条件对于某个给定节点,所有样本都属于同一分类没有剩余属性可供进一步划分–按照少数服从多数的原则来确定叶节点的分类所有样本都已分类完毕2021/7/1015数据挖掘:概念与技术(翻译张磊)属性选取的度量信息增益(ID3/C4.5)所有属性应为类别型变量可以通过改进来处理连续值属性Gini索引(

8、IBMIntelligentMiner)所有属性应为连续值变量对于每个属性,假定已存在若干可能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。