欢迎来到天天文库
浏览记录
ID:56477131
大小:998.50 KB
页数:20页
时间:2020-06-19
《数据挖掘2015最新精品课程完整课件(第9讲)基于规则的分类方法.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于规则的分类基于规则的分类器(Rule-BasedClassifier)使用一系列“if…then…”对数据集分类规则:(Condition)y此处Condition为多个属性-值对的合取y为类标号LHS(IF部分):规则前件或前提RHS(then部分):规则结论分类规则例子:(血的类型=温血)(下蛋=Yes)鸟(税收收入<50K)(退税=Yes)逃税=No规则的应用若样本x的所有属性满足规则的前提,称规则r覆盖样本xR1:(GiveBirth=no)(CanFly=yes)BirdsR2:(GiveBirth=no)(LiveinWater=yes)FishesR
2、3:(GiveBirth=yes)(BloodType=warm)MammalsR4:(GiveBirth=no)(CanFly=no)ReptilesR5:(LiveinWater=sometimes)Amphibians规则R1覆盖hawk=>Bird规则R3覆盖grizzlybear=>Mammal规则的评价规则的覆盖度(Coverage):满足规则条件的记录的百分比规则的正确性(Accuracy):在满足规则条件的记录中,也满足规则结论的记录的百分比(Status=Single)NoCoverage=40%,Accuracy=50%规则的冲突触发:规则被满足激活:该
3、规则为唯一满足的R1:(GiveBirth=no)(CanFly=yes)BirdsR2:(GiveBirth=no)(LiveinWater=yes)FishesR3:(GiveBirth=yes)(BloodType=warm)MammalsR4:(GiveBirth=no)(CanFly=no)ReptilesR5:(LiveinWater=sometimes)AmphibiansAlemurtriggersruleR3,soitisclassifiedasamammalAturtletriggersbothR4andR5Adogfishsharktrigger
4、snoneoftherules冲突解决规模序(sizeording):要求最严格的规则赋予最高优先级(i.e.,最多属性测试)基于类的序:按照类的频繁性或错分代价的降序排列基于规则的序(决策表):根据规则的质量度量或专家意见,规则组织为长的优先级列表有序规则集根据优先权对规则进行排序对一个待分类的记录若满足多条规则,则使用排在最前面的对其进行分类。若不满足任何规则,则使用默认类别。R1:(GiveBirth=no)(CanFly=yes)BirdsR2:(GiveBirth=no)(LiveinWater=yes)FishesR3:(GiveBirth=yes)(BloodT
5、ype=warm)MammalsR4:(GiveBirth=no)(CanFly=no)ReptilesR5:(LiveinWater=sometimes)Amphibians构造分类规则直接方法:直接从数据中提取规则e.g.FOIL,AQ,CN2,RIPPER间接方法:从其它分类模型中提取规则、e.g.decisiontrees,neuralnetworks,etc直接方法:顺序覆盖顺序覆盖(SequentialCovering)顺序学习规则:对每个给定的类Ci希望规则可以覆盖该类的大多数元组,但不包括其它类的元组(或很少)(1)初始值为空规则集(2)使用Learn-One-
6、Rule函数得到一条新规则(3)从训练集中删去被新产生的规则所覆盖的实例(4)重复步骤(2)和步骤(3),直到满足停止标准为止。示例示例顺序覆盖的要点产生规则消除实例规则评价停止标准规则的剪枝产生规则两种常用方法消除实例不消除实例?不消除正例?不消除负例?总是产生同一条规则可能过高估计后续规则的正确度可能过低估计后续规则的正确度规则评价标准:AccuracyLaplaceM-estimaten:Numberofinstancescoveredbyrulenc:Numberofinstancescorrectedclassifiedbyrulek:Numberofclassesp:Pri
7、orprobability停止标准停止标准计算增益若增益不显著,则舍弃新规则规则剪枝与决策树的后剪枝相似降低错误剪枝:删去规则的一个合取支(conjunct)在测试集上比较剪枝前后的错误率若出错率降低,则剪掉这一合取支直接方法的总结产生一条单一规则删除规则覆盖到的元组若需要,对规则进行剪枝将规则添加到当前的规则集中重复,直到满足某种停止条件为止,如无训练样本或规则质量低于用户指定的门限间接方法从决策树提取规则规则易于理解从根到树的叶节点的每条路
此文档下载收益归作者所有