欢迎来到天天文库
浏览记录
ID:46006896
大小:394.50 KB
页数:43页
时间:2019-11-20
《基于粗糙集理论的知识发现(XCF,2002)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于粗糙集理论的知识发现浙江大学计算机学院2004年10月10日《人工智能》第三讲第一章粗糙集理论的发展概述1.1粗糙集理论概况在经典逻辑中,只有“真”(TRUE)、“假”(FALSE)二值之分,其含义是“非此即彼”、“不容含糊”。然而,自然界中大部分事物所呈现的信息都是不完整的、不确定的、模糊的和含糊的,因而经典逻辑无法对此类问题进行准确的、较为圆满的描述和解决。长期以来,许多逻辑学家和哲学家都致力于研究“含糊”概念。早在1904年,谓词逻辑创始人G.Frege就提出了“含糊”(Vague)一词,他将含糊性归结到“边界线区域”(Boundaryregion)上,即在全域上存
2、在一些个体,它既不能被分类到某一个子集上,也不能被分类到该子集的补集上。1965年,美国数学家L.A.Zadeh提出了“模糊集”(Fuzzysets),许多计算机科学家和逻辑学家试图通过这一理论解决G.Frege提出的“含糊”问题,但模糊集没有给出数学公式描述这一含糊概念,无法计算出它的具体的含糊元素数目。1982年,波兰数学家Z.Pawlak针对G.Frege的“边界线区域”思想,提出了“粗糙集”(RoughSets)。Pawlak把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为:“上近似集”与“下近似集”的差集。由于它有确定的数学公式描述,故含糊元素的数目
3、是可以计算的,即在“真”、“假”二值之间的“含糊度”是可以计算的。粗糙集理论自诞生以来,经过许多数学家和计算机科学家的努力,其理论上日趋成熟,特别是在20世纪80年代末和90年代初,由于粗糙集理论在数据挖掘、知识发现等领域得到了成功的应用,它受到了国际上的广泛关注。相对于其它处理不确定和模糊性的理论工具(如模糊集理论、Dempster-Shafer证据理论等)而言,粗糙集理论有许多不可替代的优越性。目前,它在信息科学、医药科学、工程技术、金融商业、环境科学、社会科学等领域中得到了广泛的、较为成功的应用,并且越来越受到其它更多领域的重视。在计算机科学(特别是人工智能)领域,粗糙
4、集理论在专家系统、决策支持系统、机器学习、机器发现、归纳推理、模式识别、决策表等方面都有非常成功的应用实例。其中,在AI中的应用可分为两大类:有决策的分析和无决策的分析。(1)有决策的分析,主要包括:监督学习与决策分析;(2)对无决策的分析,主要是数据压缩、化简、聚类、模式发现、机器发现等。Jelonek等人成功地应用粗糙集理论对神经网络的输入属性及属性域进行约简。用粗糙集理论获取知识和进行机器学习的有代表性的应用实例是,Kansas大学开发的“基于粗糙集方法的学习系统”(LERS)。这个系统的规则发现能力能帮助那些用不完全知识进行工作的专家系统建立知识库。粗糙集理论认为,“
5、概念”就是对象的集合,“知识”就是将对象进行分类的能力。将概念看成是“对象的集合”的思想,实质上是一种强调概念的“外延”的表达方式。假设我们对全域中的对象具有必要的“信息”或“知识”,这些“知识”可以被认为是关于对象的内涵(如属性、特征或描述)的某种刻划。通过这些知识就能够将全域中的所有对象划分到不同的类别中。如果存在两个对象具有相同的信息,即下面将要论述的“不可区分关系”,则根据这些已知的信息无法将它们区分开来,显然这是一种等价关系。这样的等价关系可以认为是对概念的内涵的描述。不可区分关系是粗糙集理论中最基本的概念之一,在此基础上引入成员关系、上近似、下近似、分类质量等来刻
6、划知识的处理方法。粗糙集理论在知识发现中的主要应用为:(1)数据之间(精确的或近似的)依赖关系发现。(2)评价某一分类(属性)的重要性。(3)数据模式发现。(4)决策规则发现。(5)剔除冗余属性。(6)数据集的降维,等等。粗糙集理论的局限性主要有:(1)缺乏处理不精确或不确定原始数据的机制。(2)对含糊概念的刻划过于简单。(3)粗糙集理论不是万能的,它不可能解决一切含糊的、模糊的不确定性问题。(4)在一个实际的数据挖掘系统或知识发现系统,单纯地使用粗糙集理论方法不一定能有效地描述不精确或不确定的实际问题,这意味着需要其它方法的补充。一般地,将粗糙集理论与模糊集理论、证据理论等
7、其它相关的不确定性处理方法构成互补,是一种非常自然而又可行的方法。1.2粗糙集理论的发展简况(1)20世纪70年代,Pawlak和一些波兰科学院、华沙大学的逻辑学家,在研究信息系统逻辑特性的基础上,提出了粗糙集理论的思想。(2)1982年,Pawlak发表了经典论文“Roughsets”,标志着粗糙集理论的正式诞生。(3)在最初的几年里,由于大多数研究论文是用波兰文发表的,所以未引起国际计算机界的重视,研究地域仅限于东欧各国。(4)1991年Pawlak的第一本关于粗糙集理论的专著“Roughsets:
此文档下载收益归作者所有