数据挖掘技术方法ppt课件.ppt

数据挖掘技术方法ppt课件.ppt

ID:58779972

大小:1.01 MB

页数:151页

时间:2020-10-03

数据挖掘技术方法ppt课件.ppt_第1页
数据挖掘技术方法ppt课件.ppt_第2页
数据挖掘技术方法ppt课件.ppt_第3页
数据挖掘技术方法ppt课件.ppt_第4页
数据挖掘技术方法ppt课件.ppt_第5页
资源描述:

《数据挖掘技术方法ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、商务智能数据挖掘技术分类和预测2分类对离散数据的分类称为分类,对数值数据的分类称为预测。分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。分类函数或分类模型(分类器)分类模型是通过那些已知历史数据训练出来的。这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。在训练集中每个对象都赋予一个类别的标记,不同的类别具有不同的标记。分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。3分类规则实例低风险收入>¥40,000工作时间>5年高负债

2、高风险高风险低风险否否否是是是If收入¥40,000而且工作时间>5年then低风险4分类数据ThedatausedtobuildaclassificationmodelconsistsofAsetofrecords.Eachrecordhasthesamenumberoffields.Onefieldintheserecordcontainsindicatorsofclasseswhichrecordsbelongto.Thisfieldiscalledtargetfield.Otherfieldsarecalledindependen

3、tfieldswhichdescribetheindividualobjectsrepresentedbytherecords.5决策表实例6决策树arewidelyusedindatamining.weredevelopedinmachinelearningandstatistics.areusedtobuildclassificationandpredictionmodels.arewidelyavailable.判定树分类算法output训练集决策树input新数据分类7使用决策树进行分类决策树一个树形的结构内部节点上选用一个属性进行

4、分割每个分叉都是分割的一个部分叶子节点表示一个分类决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪:去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到叶子节点8决策树算法基本算法(贪心算法)自上而下分而治之的方法开始时所有的实例都在根节点属性都是分类型(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如信息增益)停止分割的条件一个节点上的实例都属于同一个类别;没有属性可以再用于对数据进行分割9属性选

5、择的统计度量信息增益—Informationgain(ID3/C4.5)所有属性假设都是分类型字段经过修改之后可以适用于数值型字段基尼指数—Giniindex(IBMIntelligentMiner)能够适用于分类和数值字段其他10信息增益度度量(ID3/C4.5)任意样本分类的期望信息:I(s1,s2,……,sm)=-∑Pilog2(pi)(i=1..m)其中,数据集为S,m为S的分类数目,PiCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数由A划分为子集的熵:E(A)=∑j(

6、s1j

7、+……+

8、smj

9、)/

10、s

11、

12、*I(s1j,……,smj)A为属性,具有V个不同的取值信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)11训练集12使用信息增益进行属性选择ClassP:buys_computer=“yes”ClassN:buys_computer=“no”I(p,n)=I(9,5)=0.940Computetheentropyforage:HenceSimilarly0.69413分枝14决策树age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes3

13、0..40151617基尼指数(GiniIndex)集合T包含n个类别的记录,那么其Gini指数就是pj类别j出现的频率如果集合T分成两部分N1andN2。那么这个分割的Gini就是提供最小Ginisplit就被选择作为分割的标准.18PruningTree目的:消除决策树的过拟合(OverFitting)问题实质:消除训练集中的异常和噪声两种方法:先剪枝法(Public算法)后剪枝法(Sprint算法)19过拟合问题训练数据测试数据此处剪枝决策树深度错误率剪枝避免过拟合决策树泛化20误分类率C1C2C3C10r12r13C2r210r23

14、C3r31r320实际类别分类类别Cost(orloss)matrix21常用的决策树算法ID3,C4.5,C5.0(RossQuinlan1986,1993)CART(LeoB

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。