欢迎来到天天文库
浏览记录
ID:5187817
大小:39.00 KB
页数:13页
时间:2017-12-05
《基于灰关联研究连续值属性约减算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于灰关联研究连续值属性约减算法 摘要:针对目前大多数属性约减算法只能用于离散值决策表的情况,将条件属性与决策属性的关联度作为属性约减的重要性测度,同时基于条件属性间的关联度和重要度定义了条件属性的重叠性测度,据此对条件属性进行去重叠化处理,提出了一种基于灰关联分析的连续值属性约减算法CARAG,实现了对连续值属性集的约减,并在仿真实验中对算法的可行性和有效性进行了对比验证。关键词:属性约减;灰关联分析;重叠度;连续值属性中图分类号:TP301.4文献标志码:AContinuous-valuedattributesreductionalgorithmbasedongr
2、aycorrelationAbstract:Sincemostcurrentattributesreductionalgorithmcanbeonlyusedfordiscretedecisiontables,thecorrelationdegreebetweenconditionattributesanddecisionattributeswasdefinedastheimportancedegreeofattributes,andmeanwhiletheoverlapdegreewasdefinedbasedonthecorrelation13degreeandim
3、portancedegreeamongattributes.Theconditionattributesimportancewasrenewedaccordingtotheoverlapdegree.Toachievethereductionofcontinuous-valuedattributesset,anattributesreductionalgorithmbasedongraycorrelationanalysiswasproposed.Thefeasibilityandeffectivenessofthealgorithmwereverifiedinthes
4、imulation.Keywords:attributereduction;greycorrelationanalysis;overlapdegree;continuous-valuedattribute0引言当前大多数属性约减算法是基于粗糙集的,粗糙集理论是一种用于数据挖掘和知识发现的强有力数学工具,但是粗糙集理论定义在经典的等价关系和等价类基础上,处理的是符号值或者离散值,是清晰的、非连续的数据,而对于现实应用中广泛存在的连续型属性值,如温度、湿度和网络流量等,经典粗糙集理论在进行分析处理时能力有限,表现出较大的局限性。13文献[1-2]定义了模糊粗糙集的概念,即本
5、文中所指的连续值属性集,文中给出一种解决连续值粗糙集的方法,将属性约简问题转化为优化问题。此类方法不能直接处理连续值数据,而是通过将连续属性进行离散化处理来把粗糙集应用于连续值属性,然而离散化后的属性值与原始属性值在实数值上存在差异,导致某种程度的信息损失。在文献[3-4]中胡清华等基于度量空间邻域和邻域关系的概念提出了一种实数空间的粗糙集模型,该模型对属性样本数据进行粒化,用连续样本值在模型中的邻域关系来代替样本值的数据关系。文献[5]中提出一种基于灰色关联度的属性约简算法来消除冗余特征,但在该算法中灰关联仅仅作为属性的重要性测度,没有考虑如何评价属性之间信息重叠特性
6、。而文献[6]中则应用灰关联分析对连续值属性间的近似性来进行分类,这样同样会出现信息损失的问题。针对以上问题,本文在灰关联理论的基础上,分析属性的重要度和重叠度,提出一种更适合处理连续值属性约减问题的基于灰关联的连续值属性约减算法,并通过仿真实验与其他属性约减方法进行分析比较,说明本算法的合理性和高效性。1基本概念1.1属性约减属性集的约简(Attribute13Reduction)是粗糙集理论的关键问题之一。文献[7]对现有的属性约减算法进行了总结,从本质描述、算法分类、算法效率等几个方面,对决策表的冲突检测算法和属性约减算法进行了系统的分析比较。现有的属性约简算法分
7、为三类:1)Pawlak约简算法。这种方法按照约简的定义进行求解,但是需要对条件属性集的幂集中所有元素进行考察,该算法的理论指导意义大于其实际应用效果,但其计算速度慢,且不易计算机实现,故其实际应用的局限性较大。2)基于差别矩阵及其改进的约简算法[8-11],由Skowron教授于1992年提出。该算法首先根据信息系统构造一个各属性的差别矩阵,利用差别矩阵中的非空元素构造区分函数。该算法可获得信息系统的约简,但是其缺点也是显著的:一是对大规模的决策表系统,该算法需存储一个区分矩阵,占用大量存储空间;二是区分函数求解本身是一个组合问题,会出
此文档下载收益归作者所有