欢迎来到天天文库
浏览记录
ID:34176150
大小:126.00 KB
页数:9页
时间:2019-03-04
《粗糙集方法在kdd系统中的应用与研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、蚆螄艿蒃薂螃罿芆蒈螂肁蒂螇袁膄芄蚃袁芆蒀蕿袀肅芃薅衿膈薈蒁袈芀莁螀袇羀薆蚆袆肂荿薂羅膄薅蒈羅芇莈螆羄羆膀蚂羃腿莆蚈羂芁艿薄羁羁蒄蒀羀肃芇蝿罿膅蒂蚅聿芈芅薁肈羇蒁蒇肇聿芄螅肆节葿螁肅莄莂蚇肄肄薇薃蚁膆莀葿蚀芈薆螈虿羈莈蚄螈肀薄薀螇膃莇蒆螇莅膀袅螆肅蒅螁螅膇芈蚆螄艿蒃薂螃罿芆蒈螂肁蒂螇袁膄芄蚃袁芆蒀蕿袀肅芃薅衿膈薈蒁袈芀莁螀袇羀薆蚆袆肂荿薂羅膄薅蒈羅芇莈螆羄羆膀蚂羃腿莆蚈羂芁艿薄羁羁蒄蒀羀肃芇蝿罿膅蒂蚅聿芈芅薁肈羇蒁蒇肇聿芄螅肆节葿螁肅莄莂蚇肄肄薇薃蚁膆莀葿蚀芈薆螈虿羈莈蚄螈肀薄薀螇膃莇蒆螇莅膀袅螆肅蒅螁螅膇芈蚆螄艿蒃薂螃
2、罿芆蒈螂肁蒂螇袁膄芄蚃袁芆蒀蕿袀肅芃薅衿膈薈蒁袈芀莁螀袇羀薆蚆袆肂荿薂羅膄薅蒈羅芇莈螆羄羆膀蚂羃腿莆蚈羂芁艿薄羁羁蒄蒀羀肃芇蝿罿膅蒂蚅聿芈芅薁肈羇蒁蒇肇聿芄螅肆节葿螁肅莄莂蚇肄肄薇薃蚁膆莀葿蚀芈薆螈虿羈莈蚄螈肀薄薀螇膃莇蒆螇莅膀袅螆肅蒅螁螅膇芈蚆螄艿蒃薂螃罿芆蒈螂肁蒂螇袁膄芄蚃袁芆蒀蕿袀肅芃薅衿膈薈蒁袈芀莁螀袇羀粗糙集方法在KDD系统中的应用与研究王健琨【摘要】本文论述了粗糙集方法性质及特点,提出了粗糙集方法在KDD系统中的应用模型,同时给出了应用这一模型对一个数据库实例进行数据挖掘的过程。另外,从精确性、鲁棒性等方面
3、对KDD系统中的粗糙集方法的适用范围进行了分析。【关键词】粗糙集KDD数据挖掘ApplicationandResearchofRoughSetinKDDSystemWangJiankunAbstract:Inthispaper,wediscussthecharacterofroughset,andputforwardtheapplicationmodelofroughsetinKDDsystem.Also,byanexample,theadvantageanddisadvantageofroughsetinKDDsys
4、temisanalyzeddetail.KeyWord:RoughSetKDDDataMining1.前言数据库中的知识发现技术(KnowledgeDiscoveryinDatabase,KDD)是随着数据库和人工智能的发展而产生的,它是“从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的非平凡过程”。通过KDD,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。KDD系统中的知识学习阶段被称为“数据挖掘”(DataMining,DM),它的算法是KDD系统的核心。近年来,粗糙集理论(Ro
5、ughSetTheory)[1]开始逐渐应用到DM的领域中,在对大型数据库中不完整数据进行分析和学习方面取得了显著的效果,因此,以粗糙集为代表的集合论方法是今后KDD技术的一个主要研究方向。2.知识发现和数据挖掘知识发现是指从数据中识别合法的、新颖的、有潜在价值的、以及最终的可理解的模式的非常规的过程。知识发现的过程包括数据准备、模式搜索、知识评估以及知识提炼等许多步骤,而这些步骤构成一个多重循环的过程。一般认为,数据挖掘是组成知识发现过程的一个环节,它是在某种可接受的约束条件下,应用数据分析和数据发现算法,从数据中获
6、取某些特定模式的过程。知识发现和数据挖掘的研究方法包括:分类、回归、聚类、归纳等等。但是,目前研究也碰到一些问题和挑战,如大数据量和维数灾难问题、过度匹配问题、数据及其结构的改变对知识发现的影响、如何有效地利用操作者的先验知识的问题等[2][3]。9知识发现和数据挖掘的研究融合了许多领域的研究成果,如模式识别、神经网络、机器学习、数据库、分类与聚类、最优化技术、高性能并行计算、知识建模、可视化等。3.粗糙集粗糙集(RoughSet)理论和模糊集(FuzzySet)理论都是针对不确定性问题提出的,它们既相互独立,又相互补
7、充。粗糙集方法与传统的统计及模糊集方法不同的是:后者需要依赖先验知识对不确定性的定量描述,如统计分析中的先验概率、模糊集理论中的模糊度等等;而前者只依赖数据内部的知识,用数据之间的近似来表示知识的不确定性。用粗糙集来处理不确定性问题的最大优点在于,它不需要关于数据的预先或附加的信息,而且容易掌握和使用。粗糙集中不精确的要领包含下近似和上近似两个定义,前者指的是所有对象都一定被包含,后者指的是所有对象可能被包含。粗糙集的一些理论和方法可用来从数据库中发现分类规则。其基本思想是,将数据库中的属性分为条件属性和结论属性,对数
8、据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间的上下近似关系生成判定规则。粗糙集理论的出发点是,根据目前已有的对给定问题的知识将问题的论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持程度:即肯定支持此概念、肯定不支持此概念和可能支持此概念。在粗糙集理论中,以上三
此文档下载收益归作者所有