分类和预测算法.ppt

分类和预测算法.ppt

ID:55814665

大小:267.50 KB

页数:38页

时间:2020-06-08

分类和预测算法.ppt_第1页
分类和预测算法.ppt_第2页
分类和预测算法.ppt_第3页
分类和预测算法.ppt_第4页
分类和预测算法.ppt_第5页
资源描述:

《分类和预测算法.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第九章分类和预测分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。没有统一的观点,一般认为:用预测法预测数据归属于哪个类称为分类;用预测法预测连续值为预测。一、分类数据分类的步骤:数据准备建立模型模型评估使用模型分类数据准备数据清理:消除或减少燥声、处理空缺值相关性分析:数据中与分类和预测任务不相关的属性分析数据变换:如连续变成离散(年龄分段、收入分段等),区间变化建立模型建立模型,描述预定的数据类,通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由一个称为类标号属性的属性确定。比如

2、将人员数据按信用分成{优、良、中、一般、差}五个类,类标号属性为数据库的信用属性。对于分类,数据元组也称为样本、实例或对象。为建立模型而被分析的数据元组组成训练数据集。训练集中的单个元组称作训练样本,并随机的由样本群选取。由于提供了每个训练样本的类标号(即指定了按哪个类属性分类),该步也称为有指导的学习。模型评估首先评估模型的预测正确率,建立一个测试集,测试集中数据从样本集随机取出并独立于训练样本。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。模型评价指标a是正确预测到的负例的数量,TrueNegative(TN,0->0

3、)b是把负例预测成正例的数量,FalsePositive(FP,0->1)c是把正例预测成负例的数量,FalseNegative(FN,1->0)d是正确预测到的正例的数量,TruePositive(TP,1->1)a+b是实际上负例的数量,ActualNegativec+d是实际上正例的个数,ActualPositivea+c是预测的负例个数,PredictedNegativeb+d是预测的正例个数,PredictedPositive模型评价指标准确(分类)率=正确预测的正反例数/总数Accuracy=truepositiveandtr

4、uenegative/totalcasesACC=(TP+TN)/(P+N)误分类率=错误预测的正反例数/总数Errorrate=falsepositiveandfalsenegative/totalcasesErrorrate=(FP+FN)/(P+N)模型评价指标正例的覆盖率=正确预测到的正例数/实际正例总数,Recall(TruePositiveRate,orSensitivity)=truepositive/totalactualpositiveTPR=TP/P=TP/(TP+FN)falsepositiverate(FPR)等同

5、于:fall-outFPR=FP/N=FP/(FP+TN)模型评价指标负例的覆盖率=正确预测到的负例个数/实际负例总数Specificity(TrueNegativeRate)=truenegative/totalactualnegativeSPC=TN/N=TN/(FP+TN)=1-FPRROC曲线,全称是receiveroperatingcharacteristiccurve,中文叫“接受者操作特性曲线”,纵坐标:truepositivesrate(sensitivity),横坐标falsepositivesrate(1-specif

6、icity)模型评价指标positivepredictivevalue(PPV)等同于:precisionPPV=TP/(TP+FP)negativepredictivevalue(NPV)NPV=TN/(TN+FN)falsediscoveryrate(FDR)FDR=FP/(FP+TP)Matthewscorrelationcoefficient(MCC)MCC=(TP*TN-FP*FN)/sqrt(P*N*P1*N1)F1score           F1=2*TP/(P+P1)图例训练数据姓名年龄收入信用张杨<=30底中张铭<=

7、30底良王枚31..40高良金清>40中中李杲>40中中李雷31..40高良...…......分类算法分类规则if(年龄==“31..40”&&收入==“高”)信用=良类标号属性图例测试数据姓名年龄收入信用张侃>40高中张恬<=30底中李铁31..40高良…..........分类规则(赵熔,31..40,高)信用=?良二、决策(判定)树归纳1、决策树一个树形的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布一个电器销售商根据数据库的数据分析概念“买计算机”,构造的决策树年龄?是31..40信用?学生?是

8、是否否中良>40<=30是否训练数据集概念“buys_computer”的判定树age?overcaststudent?creditrating?noyesfairexcellent<=30>

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。