资源描述:
《粗糙集理论分析及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、粗糙集理论分析及其应用研究覃宝灵(佛山科学技术学院信息与教育技术中心,广东佛山528000)摘要:本文阐述粗糙集理论的基本概念,探讨粗糙集理论中知识约简和规则提取的重要性,通过分析、比较,把这些理论和技术应用于实际屮,取得了显著的效果,对其在信息系统屮的应用具有一定的研究价值。关键词:粗糙集;知识约简;规则提取;遗传算法1、刖吕随着信息技术的飞速发展和广泛应用,面对信息系统中不完整、不精确或不确定的数据如何有效分析处理?如何发现隐藏在信息系统屮的有用知识和潜在的规律?为了解决这些问题,学术界和研究者们采用了粗糙集理论。粗糙集理论是由波兰数学家Z.Pawla
2、k在1982年提出的[1],它是一种分析处理不完整性、不精确性、不确定性知识的数学工具。该理论不需耍任何初始或附加信息,直接利用己知的知识库,将知识库中的不确定或不精确的知识进行近似的划分,并对所划分的知识域确定其支持程度。目前,该理论已成为信息科学和认识科学领域的研究热点之一,随着研究的深入,该理论得到了很大的发展和壮大,并已成功应用于人工智能、模式识别与分类、知识发现与决策分析、专家系统、数据挖掘、故障检测、金融、医学、生物学等领域。2、粗糙集的基本理论定义粗糙集理论是一种研究不完整、不确定性知识的数学工具[2]0在信息系统屮,对知识的理解和表示是人们
3、首先思考的问题,同时也是比较难解决的问题,从目前研究来看,对这些问题的解决,粗糙集理论和技术是比较理想的方法。定义1:(信息系统)设一个信息系统L3JS=(U,A,V,f),这里,①U是对象的非空有限集合,即称为论域,记为:U={xl,x2,・・・,xn};②A是属性的非空有限集合,记为:A={A1,A2,—,Am};③V是属性的值域集,记为:V={V1,V2,…,Vm},且Vi是属性Ai的值域;④f是信息函数,即f:UXA-V,f(xi,Aj)eVj0在信息系统中,若属性集合Arfl条件属性集合C和决策属性集合D组成,且CUD=A,CQD=①,则称S为决
4、策系统,又称决策表。定义2:(等价关系)设知识表示系统S=(U,A,V,f),若属性集合p.A吋,称P的不可分辨关系Ind(P)是U上的等价关系,其中Ind(P)={(x,y)WUXU
5、.awp,f(x,a)=f(y,a)}。由Ind(P)导出的所有等价类集合记为U/P,它构成了论域的一个划分,含有元素x的等价类,记为[x]p0定义3:(下近似、上近似、边界域)设X.U是一个集合,R是一个定义在U上的等价关系。有:①若R—(X)=U{YWU/R:YEX},则称R—(X)为X的R下近似集;②若R—(X)二U{YWU/R:YCIXH®},则称R—(X)为X的R
6、上近似集;③若R(X)二R—(X)—R—(X),则称R(X)为集合X的边界域。若R(X)是空集,则称集合X关于集合R是清晰的;反之,称集合X为关于集合R的粗糙集。定义4:设R是一族等价关系,且{RJER,若Ind(R)HInd(R・{R}),则称{R}为R中不可省略的,否则称{R}为R中可省略的。当每一个{R}都是R中不可省略的,则称{R}为独立的。定义5:设P.R,当P为独立的,且Ind(P)=Ind(R),则称P是R的一个约简,记为RedoR中所有不可省略关系构成的集合称为R的核,记为Coreo可推并证得:Core二QRed。3、粗糙集理论的知识约简及
7、规则提取分析在数据挖掘过程中,粗糙集理论的核心是知识约简,其算法是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。其知识处理模型如图3-1所75:预处理初始数据信息表不可分辨矩阵约简约简集挖掘规则图3-13.1知识约简分析在粗糙集理论中,“知识”理解为一种分类能力,即对数据的划分,可用集合表示,例如,假设给定数据集U和等价关系集P,若用P來划分U,则称其为知识。知识约简是指在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要的知识,从而可以简化判断规则,提高决策效率。在实际应用中,通常用决策表來描述论域中的每个对象,其实,它
8、是二维表,每一行表示一个对象,每一列表示对象的每一种属性,而属性又分条件属性和决策属性两类,在论域屮的对象,根据条件属性的不同,被划分到具有不同决策属性的决策类屮。由于一个属性对应一个等价关系,一个表可以表示--族等价关系,即知识库,所以知识约简可以转化为属性约简。在决策表分类过程屮,可能存在多个约简,若将这些约简交集,则称其为核,它是计算所有约简的基础,是知识最重要部分的集合,对知识约简时不能删除它。核的属性是分类的关键属性,所以在信息系统中,如何计算出核的属性呢?通常的算法是首先删除重复的实例和不关联的属性,其次删除每个实例的多余属性,最后计算出最小约
9、简,并通过最小约简,求出逻辑规则。当前随着知识库的不断扩大,知识约