欢迎来到天天文库
浏览记录
ID:31360091
大小:113.50 KB
页数:9页
时间:2019-01-09
《基于扩展容差关系的不完备信息系统属性约简》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于扩展容差关系的不完备信息系统属性约简 摘要:针对当前的邻域粗糙集多用于处理完备的信息系统,而非不完备的信息系统这一问题,提出了一种可用于处理不完备混合信息系统的扩展容差关系,并给出相关定义,使用容差完备度和邻域阈值作为限制条件计算扩展容差邻域,以此邻域为基础选择决策正域得到系统的属性重要性,并以该重要性作为启发因子给出基于扩展容差关系的属性约简算法。采用UCI数据集中的7组不同类型的数据集进行仿真实验,并分别与扩展邻域关系(EN)、容差邻域熵(TRE)、邻域粗糙集(NR)的方法进行比较,实验结果表明,该方法在保证分类精度的同时能够约简
2、得到更少的属性。最后讨论了在扩展容差关系中改变邻域阈值对分类精度产生的影响。 关键词:邻域粗糙集;不完备信息;属性约简;属性重要性;邻域阈值 中图分类号:TP181 文献标志码:A 文章编号:1001-9081(2016)11-2958-05 0引言 在许多实际的应用领域中,求解问题时能够利用的知识往往是带有不确定性的,20世纪80年代初波兰数学家Pawlak教授提出了粗糙集理论(RoughSetThoery)[1],9它能够定量分析处理不精确、不一致、不完整信息与知识,该理论的提出,为处理不确定性的问题[2-3]提供了一种有效
3、的工具。但是经典的粗糙集只适合处理名义型数据,而在现实中的领域,如市场分析、故障诊断、天气预测和投资决策等,存在数值型数据的情况是非常普遍的,而使用离散化的方法处理数值型数据往往会丢失重要信息。邻域粗糙集(NeighborhoodRoughset,NR)[4-5]以邻域粒化的方式近似逼近论域空间中的任一概念,直接处理数值型数据,从而避免了离散化给信息带来的损失。但是邻域粗糙集多用于处理完备的信息系统,而实际的信息系统大多是不完备的,因此,寻求一种能够处理不完备信息系统的方法也是近年来的研究热点[6-7]。 关于不完备的信息系统,传统的RO
4、USTIDA数据补齐算法[8]对系统进行完备化处理,使用数据补全来填补信息系统中遗失的数据,但这种做法会使原信息系统产生变化,从而不能反映原始信息系统的真实情况。因此,本文旨在寻求一种在不改变信息系统的前提下直接进行数据处理的方法,Kryszkiewicz[9]提出了容差关系,Stefabowski等[10]和盛立等[11]也提出了用来扩充不完备信息系统的粗糙集模型,这些关系模型都具有元素相似性的特点,利用元素相似性进行样本归类,而粗糙集理论正是利用等价关系对不确定关系进行划分,因此它们能做到与粗糙集理论有效的结合。很多学者也提出了其他处理
5、不完备信息系统的方法:文献[12]使用确定特征优势关系的概念,将近似分布约简引入到广义不完备序值信息系统中,并提出分布约简概念和方法;文献[13]将容差关系与粗糙集相结合,定义了容差关系下的可辨识矩阵,并运用该方法得到了不完备信息系统下的一种约简算法;文献[14]以非对称相似关系为基础,9将不同的约简形式引入到不完备信息系统中,为知识获取提供了新的理论方法和解决手段。但是这些方法只能处理名义型的属性,却不能处理数值型属性。文献[15]提出了一种新颖的处理不完备信息系统的方法,它将超图模型应用于邻域粗糙集,并训练得到一种较好的分类器;文献[1
6、6]将邻域粗糙集与容差关系相结合,用容差邻域条件熵的结果评价系统的约简和分类性能。但这种方法没有考虑信息完备度对不完备信息系统产生的影响,本文针对不完备信息系统提出一种可以同时处理名义型属性和数值型属性的扩展容差关系,使用容差完备度弥补了上述方法中的不足,利用扩展容差关系得到属性的重要性,并以此重要性为启发因子设计了基于扩展容差关系的混合信息系统的属性约简算法。最后通过实验,验证了该算法的有效性。 4实验分析 本文从UCI数据集中选取了7组不同类型数据进行实验,在这些数据集中,有2个是完备的,5个是不完备的,其中有4个完全是连续型属性,
7、2个是混合型属性,1个完全是名义型属性。为了得到精确的数据处理结果,消除数据在数量级上差异,在数据处理之前需要进行归一化处理,将数值型属性转化到[0,1]内。本文将基于扩展容差关系的属性约简算法的实验结果分别与邻域粗糙集(NeighborhoodRoughset,NR)[5]、容差邻域熵(ToleranceNeighborhoodEntropy,TRE)[16]和扩展邻域关系(ExtensionNeighborhoodrelation,EN)[17]三种算法的实验结果进行比较,其中EN和TRE是具有容差能力的算法,NR是不具有容差能力的算法
8、,9使用这4种算法分别对不完备信息系统进行属性约简。实验结果如表1所示(表中13/0表示属性类型比例,13表示连续属性个数,0表示离散属性个数)。 从表1中可以得到,本文所使用
此文档下载收益归作者所有