欢迎来到天天文库
浏览记录
ID:5300160
大小:217.78 KB
页数:2页
时间:2017-12-07
《数据挖掘的方法分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、·146·价值工程数据挖掘的方法分类研究ResearchonMethodSortingofDataMining神鹏飞ShenPengfei;王希武WangXiwu;耿志广GengZhiguang;姜樟JiangZhang;=F创伟WangChuangwei(军械工程学院,石家庄050003)(OrdnanceEngineeringCoflege,Shijiazhuang050003,China)摘要:通过对数据挖掘技术进行全面的分析和研究,依据其功能、任务的不同以及所处角度对分类方法的影响,侧重于应用
2、数据挖掘技术得出结果的形式,同时还克服了传统数据挖掘分类方法的局限性和模糊性,最终提供了一种更为合理清晰的分类思路和方法。该方法的有效区分使得数据挖掘的应用更为方便易行,为正确的运用合适的数据挖掘方法进行知识的发掘提供导向。Abstract:Byanoverallanalysisandresearchondataminingtechnique,accordingtothedifferentfunctionandtaskandtheinfluenceofperspectiveonsortingmetho
3、d,emphasizingparticularlyontheformofresultswhichismadebydataminingtechnique,andovercomingthelimitationandillegibilityofcanonicalsortingmethod,thenfinallyakindofsortingmethodandapproachispresentTheeffectivedistinctionofthismethodmakesitmorefeasibleandcon
4、venient,anditofersguidanceforapplyingproperdataminingmethodtodiscoverknowledgeinarightway.关键词:数据挖掘;方法;分类Keywords:datamining;method;sort中图分类号:TP392文献标识码:A文章编号:1006—4311(2010)26—0146—02O引言‘种方法对愈大的数据库效果愈好。ID3方法在国际上影响很大,ID3数据挖掘是一门多学科交叉的综合性学科』Ji,其方法也融合了方法以后又
5、陆续开发了ID4、ID5、C4.5等。各学科方法的思想,主要是由人工智能、机器学习的方法发展而来,1.2IBLE方法IBLE(Information-basedLearningfromExamples并与传统的统计分析方法、模糊数学方法结合而形成的,如图1所[31方法是利用信息论中信道容量的概念作为对实体中选择重要特征示。正因为如此,对它进行合理的分类十分重要,但同时却也不太容的度量。寻找数据库中信息量从大~Jzj',的多个字段的取仅建立决策易。这里将它分为:信息论方法、集合论方法、神经网络方法、遗传
6、算树的一个结点,根据该结点中指定字段取值的权值之和与两阈值的法、公式发现。比较,建立左、中、有三个分枝,在各分枝子集中重复建树结点和分枝的过程。IBLE方法比ID3方法在识别率上提高了10%。溆据库技术统计学2集合论方法、-一⋯一:⋯..。.^¨⋯⋯集合论方法是开展较早的方法。近年来,由于粗糙集理论的发'⋯一~展使集合论方法得到了迅速的发展。这类方法中包括:覆盖正例排机器学习一⋯数据挖掘一一信息科学斥反例方法、概念树方法和粗糙集(roughset)方法。关联规则挖掘也、,—————————,⋯一属于集
7、合论方法。2.1覆盖正例排斥反例方法覆盖正例排斥反例方法是从已知的正例和反例中归纳出能够描述正例而排斥反例的一般规则,它在图1数据挖掘的多学科性机器学习中称为示例学习(也称为通过例子学习)。在学习的过程1信息论方法中,它既需要正例集又需要反例集,数据库中的元组集合可以被视信息论方法是利用信息论的原理建立决策树。由于该方法最后为示例集合。当要发现某一类而排斥其余类的一般规则时,可以将获得的知识表示形式是决策树,又称它为决策树方法。典型的信息某一类元组作为正例集,其余类所有的元组作为反例集,这样依次论方法
8、有两类。指定正例集和反例集便可以发现描述知识基表中某一类元组而排1.1ID3等方法ID3fIterativeDichotomiser3)[21方法由J.R.斥其余类的一般规则,即分类规则。比较典型的有AQt41算法及其改Quinlan首创,其前身是CLS(ConceptLearningSystem)。ID3方法检进算法,洪家荣的AE5方法【引。验所有的特征,选择信息增益f互信息1最大的特征点产生决策树结2-2概念树方法在数据库中,许多属性都是可以进行数据
此文档下载收益归作者所有